Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9068

.pdf
Скачиваний:
1
Добавлен:
25.11.2023
Размер:
2.21 Mб
Скачать

Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

Прокопенко Н.Ю.

МАШИННОЕ ОБУЧЕНИЕ

Учебно-методическое пособие по подготовке к лекциям, практическим занятиям

(включая рекомендации по организации самостоятельной работы)

для обучающихся по дисциплине «Машинное обучение» по направлению подготовки 09.03.04 Программная инженерия

профиль 09.03.04 Разработка программно-информационных систем

Нижний Новгород

2018

УДК

Прокопенко Н.Ю. / Машинное обучение [Электронный ресурс]: учеб.-метод. пос. / Н.Ю. Прокопенко; Нижегор. гос. архитектур. - строит. ун-т – Н. Новгород: ННГАСУ, 2018. – 114 с.– 1 электрон. опт. диск (CD-RW).

В настоящем учебно-методическом пособии по дисциплине «Машинное обучение» даются конкретные рекомендации учащимся для освоения как основного, так и дополнительного материала дисциплины и тем самым способствующие достижению целей, обозначенных в учебной программе дисциплины. Цель учебнометодического пособия – это помощь в усвоении лекций и в подготовке к практическим занятиям.

Учебно-методическое пособие предназначено для обучающихся в ННГАСУ по дисциплине «Машинное обучение» по направлению подготовки 09.03.04 Программная инженерия, профиль 09.03.04 Разработка программно-информационных систем.

Учебно-методическое пособие ориентировано на обучение в соответствии с календарным учебным графиком и учебным планом по основной профессиональной образовательной программе направления 09.03.04 Программная инженерия, профиль 09.03.04 Разработка программно-информационных систем, утверждённым решением учёного совета ННГАСУ от 02.03.2018 г. (протокол № 3).

© Н.Ю. Прокопенко, 2018 © ННГАСУ, 2018

2

Оглавление

1.Общие положения……………………………………………………………..…....4

1.1Цели изучения дисциплины и результаты обучения………………….…..…4

1.2Содержание дисциплины…………………………………………………..…..4

1.3Порядок освоения материала……………………………………………..…....5

2.Методические указания по подготовке к лекциям…………………………..…...6

2.1Общие рекомендации по работе на лекциях……………………………….....6

2.2Общие рекомендации при работе с конспектом лекций…………………......6

2.3Краткое содержание лекций……………………………………………….…..7

2.3.1.Раздел 1. Предмет и методы интеллектуального анализа данных. ..….…7

2.3.2.Раздел 2. Оперативная аналитическая обработка данных OLAP ………16

2.3.3.Раздел 3. Data Mining: классификация и регрессия. Машинное обучение.

Деревья решений …………………………………………………………….…...27

2.3.4. Раздел 4. Data Mining: ассоциативные правила ………………………….36

2.3.5. Раздел 5. Data Mining. Искусственные нейронные сети………………....41

2.4Контрольные вопросы………………………………………………………..53

3.Методические указания по подготовке к практическим занятиям…………....57

3.1Общие рекомендации по подготовке к практическим занятиям………….57

3.2Примеры задач для практических занятий…………………………...……..57

4.Методические указания по организации самостоятельной работы……….......97

4.1Общие рекомендации для самостоятельной работы……………………….97

4.2Темы для самостоятельного изучения……………………………………....98

4.3.Учебно-методическое обеспечение самостоятельной работы…………….98

4.4 Задания для самостоятельной работы…………………………………….....99

3

1. Общие положения

1.1 Цели изучения дисциплины и результаты обучения

Основными целями освоения учебной дисциплины «Машинное обучение» яв-

ляется формирование четкого представления о месте и роли современной техноло-

гии обработки данных – методах искусственного интеллекта, изучение сложившейся в этой области терминологии, моделей и методов актуальных направлений искус-

ственного интеллекта Data mining, овладение современным программным инстру-

ментарием, позволяющим эффективно применять методы машинного обучения.

В процессе освоения дисциплины студент должен Знать:

основные модели Data mining (деревья решений, ассоциативные правила, кла-

стеризация; искусственные нейронные сети), этапы, методы и инструментальные средства обработки данных.

Уметь:

самостоятельно провести необходимую работу с данными, определить тип за-

дачи (классификация, кластеризация, прогнозирование, поиск зависимостей и т.п.),

решить ее адекватно выбранным методом.

Владеть:

практическими приёмами и методами реализации различных стратегий обра-

ботки данных и объяснения полученных результатов; навыками работы с конкрет-

ной АП Deductor.

1.2 Содержание дисциплины

Материал дисциплины сгруппирован по следующим разделам:

1. Предмет и методы интеллектуального анализа данных.

Области применения методов машинного обучения. Методы обработки данных.

Подготовка данных для анализа: выявление пропусков, дубликатов, противоречий,

аномалий; восстановление пропущенных значений; редактирование аномальных значений; представление их в виде, пригодном для дальнейшего анализа с помощью

4

различных аналитических и интеллектуальных алгоритмов. 2. Оперативная аналитическая обработка данных OLAP.

Многомерное представление данных On-line Analytical Processing (OLAP). Ви-

зуализация данных и манипуляция с данными на основе графического изображения

(диаграммы, гистограммы, OLAP-кубы).

3. Data Mining: классификация и регрессия. Машинное обучение. Деревья ре-

шений.

Методы кластерного анализа (метод k-средних; дискриминантный анализ: От-

несение объектов к тому или иному классу с помощью функций классификации, ме-

тода эталона, метода ближайшего соседа. Деревья решений. Алгоритмы построения деревьев решений. Модифицированный алгоритм построения дерева решающих правил на основе алгоритма C4.5. Упрощение деревьев решений. Визуализаторы

(Правила, значимость атрибутов).

4. Data Mining: ассоциативные правила.

Ассоциативные правила. Алгоритм Apriori для поиска ассоциативных правил.

Иерархические ассоциативные правила.

5. Data Mining. Искусственные нейронные сети.

Основные понятия. Структура нейронной сети. Алгоритм обратного распро-

странения ошибки. Процесс обучения. Параметры остановки. Многослойный пер-

септрон. Выбор оптимальной структуры многослойной сети.

1.3 Порядок освоения материала

Материал дисциплины изучается в соответствии с порядком, определённым в

следующей таблице: Таблица 1

Порядок освоения дисциплины

Раздел дисциплины

№№ предшествующих

 

 

разделов

 

 

 

1

Предмет и методы интеллектуального анализа дан-

-

 

ных.

 

 

 

 

2

Оперативная аналитическая обработка данных OLAP.

1

 

 

 

5

3

Data Mining: классификация и регрессия. Машинное

1,2

 

обучение. Деревья решений.

 

 

 

 

4

Data Mining: ассоциативные правила.

1,2,3

 

 

 

5

Data Mining. Искусственные нейронные сети.

1,2,3,4

 

 

 

2. Методические указания по подготовке к лекциям

2.1 Общие рекомендации по работе на лекциях

Лекция является главным звеном дидактического цикла обучения. Ее цель – формирование основы для последующего усвоения учебного материала. В ходе лек-

ции преподаватель в устной форме, а также с помощью презентаций передает обу-

чаемым знания по основным, фундаментальным вопросам изучаемой дисциплины.

Назначение лекции состоит в том, чтобы доходчиво изложить основные поло-

жения изучаемой дисциплины, ориентировать на наиболее важные вопросы учебной дисциплины и оказать помощь в овладении необходимых знаний и применения их на практике.

Личное общение на лекции преподавателя со студентами предоставляет боль-

шие возможности для реализации образовательных и воспитательных целей.

При подготовке к лекционным занятиям студенты должны ознакомиться с пре-

зентаций, предлагаемой преподавателем, отметить непонятные термины и положе-

ния, подготовить вопросы с целью уточнения правильности понимания. Рекоменду-

ется приходить на лекцию подготовленным, так как в этом случае лекция может быть проведена в интерактивном режиме, что способствует повышению эффектив-

ности лекционных занятий.

2.2Общие рекомендации при работе с конспектом лекций

Входе лекционных занятий необходимо вести конспектирование учебного ма-

териала. Конспект помогает внимательно слушать, лучше запоминать в процессе осмысленного записывания, обеспечивает наличие опорных материалов при подго-

товке к семинару, зачету, экзамену.

Полезно оставить в рабочих конспектах поля, на которых делать пометки из ре-

6

комендованной литературы, дополняющие материал прослушанной лекции, а также подчеркивающие особую важность тех или иных теоретических положений.

В случае неясности по тем или иным вопросам необходимо задавать препода-

вателю уточняющие вопросы. Следует ясно понимать, что отсутствие вопросов без обсуждения означает в большинстве случаев неусвоенность материала дисциплины.

2.3 Краткое содержание лекций.

2.3.1. Предмет и методы интеллектуального анализа данных

Data Mining (добыча данных) или интеллектуальный анализ данных – это про-

цесс автоматического выделения действительной, эффективной, ранее неизвестной и совершенно понятной информации из больших баз данных и использование ее для принятия ключевых бизнес-решений.

Характерные особенности DM:

предназначен для фундаментального исследования проблем в той или иной предметной области;

Требования по времени менее жестки, но используются более сложные мето-

дики;

ставятся, как правило, задачи и получают результаты стратегического значе-

ния;

при решении сложных задач в режиме Data mining приходится исполь-

зовать весьма мощные специальные программные средства или, как говорят, ин-

струменты.

Информационный подход к анализу получил распространение в таких мето-

диках извлечения знаний, как Knowledge Discovery in Databases (KDD) и Data Mining. Сегодня на базе этих методик создается большинство прикладных аналитиче-

ских решений в бизнесе и многих других областях.

Причины распространения KDD и Data Mining

1. В KDD и Data Mining нет ничего принципиально нового. Специалисты в различных областях человеческого знания решали подобные задачи на протяжении нескольких десятилетий.

7

Однако в последние годы интеллектуальная составляющая бизнеса стала воз-

растать, и для распространения технологий KDD и Data Mining были созданы все необходимые и достаточные условия.

2.Развитие технологий автоматизированной обработки информации со-

здало основу для учета сколь угодно большого количества факторов и достаточного объема данных.

3. Возникла острая нехватка высококвалифицированных специалистов в области статистики и анализа данных. Поэтому потребовались технологии обработ-

ки и анализа, доступные для специалистов любого профиля за счет применения ме-

тодов визуализации и самообучающихся алгоритмов.

4.Возникла объективная потребность в тиражировании знаний. Получен-

ные в процессе KDD и Data Mining результаты являются формализованным описа-

нием некоего процесса, а следовательно, поддаются автоматической обработке и повторному использованию на новых данных.

5.На рынке появились программные продукты, поддерживающие техно-

логии KDD и Data Mining, – аналитические платформы. С их помощью можно со-

здавать полноценные аналитические решения и быстро получать первые результаты.

Аспекты проблемы анализа и необходимые для их разрешения функции нашли выражение в соответствующих программных продуктах. Соответственно средства автоматизации анализа представлены в различных видах. Имеются ком-

плексные информационно-аналитические системы, выполняющие в той или иной степени функции в соответствии с рассмотренными аспектами. Представлены на рынке программных продуктов и целевые программные системы, выполняющие в увеличенном объеме, расширенном составе и повышенной сложности какие-либо функции, например, оперативного или интеллектуального анализа: SAP Business Objects (разработчик – компания SAP AG), Oracle OLAP (разработчик – Oracle

Corporation), ПРОГНОЗ (разработчик – компания «Прогноз»), Deductor (разработчик

– компания BaseGroup Labs), SPSS, STATISTIKA Data Miner, PolyAnalyst и др.

Несмотря на разнообразие бизнес-задач почти все они могут решаться по еди-

8

ной методике. Эта методика, зародившаяся в 1989 г., получила название Knowledge Discovery in Databases – извлечение знаний из баз данных. Она описывает не кон-

кретный алгоритм или математический аппарат, а последовательность действий, ко-

торую необходимо выполнить для обнаружения полезного знания. Методика не за-

висит от предметной области; это набор атомарных операций, комбинируя которые,

можно получить нужное решение. KDD включает в себя этапы подготовки данных,

выбора информативных признаков, очистки, построения моделей, постобработки и интерпретации полученных результатов. Ядром этого процесса являются методы

Data Mining, позволяющие обнаруживать закономерности и знания (Рис. 1).

Рис. 1. Этапы KDD

Knowledge Discovery in Databases – процесс получения из данных знаний в ви-

де зависимостей, правил, моделей, обычно состоящий из таких этапов, как выборка данных, их очистка и трансформация.

Кратко рассмотрим последовательность шагов, выполняемых на каждом этапе

KDD.

Выборка данных. Первым шагом в анализе является получение исходной вы-

борки. На основе отобранных данных строятся модели. Здесь требуется активное участие экспертов для выдвижения гипотез и отбора факторов, влияющих на анали-

зируемый процесс. Желательно, чтобы данные были уже собраны и консолидирова-

9

ны. Крайне необходимы удобные механизмы подготовки выборки: запросы, филь-

трация данных и сэмплинг. Чаще всего в качестве источника рекомендуется исполь-

зовать специализированное хранилище данных, консолидирующее всю необходи-

мую для анализа информацию.

Очистка данных. Реальные данные для анализа редко бывают хорошего ка-

чества. Необходимость в предварительной обработке при анализе данных возникает независимо от того, какие технологии и алгоритмы используются. Более того, эта задача может представлять самостоятельную ценность в областях, не имеющих непосредственного отношения к анализу данных. К задачам очистки данных отно-

сятся: заполнение пропусков, подавление аномальных значений, сглаживание, ис-

ключение дубликатов и противоречий и пр.

Трансформация данных. Этот шаг необходим для тех методов, при исполь-

зовании которых исходные данные должны быть представлены в каком-то опреде-

ленном виде. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленных данных.

Например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычислить агрегированные показатели. К зада-

чам трансформации данных относятся: скользящее окно, приведение типов, выделе-

ние временных интервалов, квантование, сортировка, группировка и пр.

Data Mining. На этом этапе строятся модели.

Термин Data Mining дословно переводится как «добыча данных» или «раскоп-

ка данных» и имеет в англоязычной среде несколько определений.

Data Mining – обнаружение в «сырых» данных ранее неизвестных, нетриви-

альных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Зависимости и шаблоны, найденные в процессе применения методов Data Mining, должны быть нетривиальными и ранее неизвестными, например, сведения о средних продажах таковыми не являются. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]