Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

5389

.pdf
Скачиваний:
1
Добавлен:
21.11.2023
Размер:
600.33 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

Прокопенко Н.Ю.

МАШИННОЕ ОБУЧЕНИЕ

Учебно-методическое пособие

по подготовке к лекциям, лабораторным занятиям

(включая рекомендации по организации самостоятельной работы),

по выполнению расчетной работы

для обучающихся по дисциплине «Машинное обучение»

по направлению подготовки 09.03.04 Программная инженерия профиль Разработка программно-информационных систем

Нижний Новгород

2022

УДК 004.9

Прокопенко Н.Ю. / Машинное обучение: учебно-методическое пособие / Н.Ю. Прокопенко; Нижегородский государственный архитектурно-строительный университет – Нижний Новгород: ННГАСУ, 2022. – 17 с.– Текст: электронный.

В настоящем учебно-методическом пособии по дисциплине «Машинное обучение» даются конкретные рекомендации учащимся для освоения как основного, так и дополнительного материала дисциплины и тем самым способствующие достижению целей, обозначенных в учебной программе дисциплины. Цель учебно-методического пособия – это помощь в усвоении лекций, в подготовке к лабораторным занятиям, а также в написании расчетной работы.

Учебно-методическое пособие предназначено для обучающихся в ННГАСУ по дисциплине «Машинное обучение» по направлению подготовки 09.03.04 Программная инженерия, профиль Разработка программно-информационных систем.

© Н.Ю. Прокопенко, 2022

© ННГАСУ, 2022

2

Оглавление

 

1. Общие положения ..........................................................................................................................

4

. 1.1 Цели изучения дисциплины и результаты обучения .........................................................

4

. 1.2 Содержание дисциплины .....................................................................................................

4

. 1.3 Вспомогательная литература для изучения дисциплины .................................................

5

2. Методические указания по подготовке к лекциям .....................................................................

6

. 2.1 Общие рекомендации по работе на лекциях ......................................................................

6

. 2.2 Общие рекомендации при работе с конспектом лекций ...................................................

7

. 2.3 Контрольные вопросы ..........................................................................................................

7

3. Методические указания по подготовке к лабораторным занятиям ..........................................

8

. 3.1 Общие рекомендации по подготовке к лабораторным занятиям .....................................

8

. 3.2 Примеры заданий для лабораторных занятий ....................................................................

8

.4. Методические указания по организации самостоятельной работы.......................................

11

. 4.1

Общие рекомендации для самостоятельной работы .......................................................

11

. 4.2

Темы для самостоятельного изучения ..............................................................................

13

. 5.1

Общие требования к оформлению расчетной работы .....................................................

14

. 5.2

Примерные варианты расчетной работы ..........................................................................

14

1. Общие положения

. 1.1 Цели изучения дисциплины и результаты обучения

Основной целью освоения учебной дисциплины «Машинное обучение» является достиже-

ние результатов обучения, предусмотренных установленным в ОПОП индикаторами достижения компетенций.

Целями освоения данной дисциплины являются формирование четкого представления о месте и роли современной технологии обработки данных – методах машинного обучения, изуче-

ние сложившейся в этой области терминологии, моделей и методов актуальных направлений

(нейронных сетей, моделей классификации и кластеризации), овладение современным программ-

ным инструментарием, позволяющим эффективно применять методы машинного обучения.

В процессе освоения дисциплины студент должен Знать:

основные модели Data mining (деревья решений, ассоциативные правила, кластеризация; ис-

кусственные нейронные сети), этапы, методы и инструментальные средства обработки данных.

Уметь:

самостоятельно провести необходимую работу с данными, определить тип задачи (класси-

фикация, кластеризация, прогнозирование, поиск зависимостей и т.п.), решить ее адекватно вы-

бранным методом.

Владеть:

практическими приёмами и методами реализации различных стратегий обработки данных и объяснения полученных результатов; навыками работы с аналитическими платформами Deductor

и Loginom.

Данная дисциплина позволит студентам не только систематизировать полученные теорети-

ческие знания, укрепить исследовательские навыки, но и даст возможность ориентироваться в но-

вом предметном поле информатики.

. 1.2 Содержание дисциплины

Материал дисциплины сгруппирован по следующим разделам:

1. Предмет и методы интеллектуального анализа данных.

Области применения методов машинного обучения. Методы обработки данных. Подготовка данных для анализа: выявление пропусков, дубликатов, противоречий, аномалий; восстановление пропущенных значений; редактирование аномальных значений; представление их в виде, пригод-

ном для дальнейшего анализа с помощью различных аналитических и интеллектуальных алгорит-

мов.

2. Оперативная аналитическая обработка данных OLAP.

Многомерное представление данных On-line Analytical Processing (OLAP). Визуализация данных и манипуляция с данными на основе графического изображения (диаграммы, гистограм-

мы, OLAP-кубы).

3. Data Mining: классификация и регрессия. Машинное обучение. Деревья решений.

Методы кластерного анализа (метод k-средних; дискриминантный анализ: Отнесение объек-

тов к тому или иному классу с помощью функций классификации, метода эталона, метода бли-

жайшего соседа. Деревья решений. Алгоритмы построения деревьев решений. Модифицирован-

ный алгоритм построения дерева решающих правил на основе алгоритма C4.5. Упрощение дере-

вьев решений. Визуализаторы (Правила, значимость атрибутов).

4. Data Mining: ассоциативные правила.

Ассоциативные правила. Алгоритм Apriori для поиска ассоциативных правил. Иерархиче-

ские ассоциативные правила.

5. Data Mining. Искусственные нейронные сети.

Основные понятия. Структура нейронной сети. Алгоритм обратного распространения ошиб-

ки. Процесс обучения. Параметры остановки. Многослойный персептрон. Выбор оптимальной структуры многослойной сети.

. 1.3 Вспомогательная литература для изучения дисциплины

Для освоения дисциплины обучающийся может использовать печатные и электронные из-

дания и методические материалы, имеющиеся в библиотеке ННГАСУ и/или размещённые в элек-

тронных библиотечных системах (ЭБС), предоставляющих право использования изданий на осно-

вании договорных отношений с университетом, а также иные общедоступные ресурсы сети «Ин-

тернет».

Печатные и электронные издания

1. Замятин, А. В.. Интеллектуальный анализ данных : учебное пособие. / Замятин, А. В. ; А. В. За-

мятин. – Томск : Издательский Дом Томского государственного университета, 2020. – 194 с. –

URL: URL: https://www.iprbookshop.ru/116889.html. – ISBN ISBN 978-5-94621-898-6.

2. Сараев П. В.. Методы машинного обучения : Методические указания и задания к лабораторным работам по курсу. / Сараев П. В. ; П. В. Сараев. – Липецк : Липецкий государственный техниче-

ский университет, ЭБС АСВ, 2017. – 48 с. – URL: URL: http://www.iprbookshop.ru/83183.html. –

ISBN ISBN 2227-8397.

5

3. Сопов, Е. А.. Многокритериальные нейроэволюционные системы в задачах машинного обуче-

ния и человеко-машинного взаимодействия : монография. / Сопов, Е. А., Иванов, И. А. ; Е. А. Со-

пов, И. А. Иванов. – Красноярск : Сибирский федеральный университет, 2019. – 160 с. – URL: URL: http://www.iprbookshop.ru/100054.html. – ISBN ISBN 978-5-7638-3969-2.

4. Теория и практика машинного обучения : учебное пособие. / Воронина, В. В., Михеев, А. В.,

Ярушкина, Н. Г., Святов, К. В. ; В. В. Воронина, А. В. Михеев, Н. Г. Ярушкина, К. В. Святов. –

Ульяновск : Ульяновский государственный технический университет, 2017. – 291 с. – URL: URL: http://www.iprbookshop.ru/106120.html. – ISBN ISBN 978-5-9795-1712-4.

Методические материалы по дисциплине

1. Прокопенко Наталья Юрьевна. Системы искусственного интеллекта : учеб.-метод. пособие по подгот. к лекциям, практ. занятиям (включая рекомендации по организации самостоят. работы)

для обучающихся по дисциплине "Системы искусств. интеллекта" по направлению подгот. 09.03.04 Программная инженерия, профиль 09.03.04 Разработка программно-информ. систем. /

Прокопенко Наталья Юрьевна ; Нижегор. гос. архит.-строит. ун-т. – Нижний Новгород : ННГАСУ,

2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.

2. Прокопенко Наталья Юрьевна. Анализ данных : учеб.-метод. пособие по подгот. к лекциям,

практ. занятиям (включая рекомендации по организации самостоят. работы) для обучающихся по дисциплине "Анализ данных" по направлению подгот. 09.03.04 Программная инженерия, профиль

09.03.04 Разработка программно-информ. систем. / Прокопенко Наталья Юрьевна ; Нижегор. гос.

архит.-строит. ун-т. – Нижний Новгород : ННГАСУ, 2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.

3. Прокопенко Наталья Юрьевна. Машинное обучение : учеб.-метод. пособие по подгот. к лекци-

ям, практ. занятиям (включая рекомендации по организации самостоят. работы) для обучающихся по дисциплине "Машинное обучение" по направлению подгот. 09.03.04 Программная инженерия,

профиль Разработка программно-информ. систем. / Прокопенко Наталья Юрьевна ; Нижегор. гос.

архит.-строит. ун-т. – Нижний Новгород : ННГАСУ, 2018. – 1 CD ROM. – URL: URL: http://catalog.nngasu.ru/MarcWeb2/.

2. Методические указания по подготовке к лекциям

. 2.1 Общие рекомендации по работе на лекциях

Лекция является главным звеном дидактического цикла обучения. Ее цель – формирование

основы для последующего усвоения учебного материала. В ходе лекции преподаватель в устной

6

форме, а также с помощью презентаций передает обучаемым знания по основным, фундаменталь-

ным вопросам изучаемой дисциплины.

Назначение лекции состоит в том, чтобы доходчиво изложить основные положения изуча-

емой дисциплины, ориентировать на наиболее важные вопросы учебной дисциплины и оказать помощь в овладении необходимых знаний и применения их на практике.

При подготовке к лекционным занятиям студенты должны ознакомиться с презентаций,

предлагаемой преподавателем, отметить непонятные термины и положения, подготовить вопросы с целью уточнения правильности понимания. Рекомендуется приходить на лекцию подготовлен-

ным, так как в этом случае лекция может быть проведена в интерактивном режиме, что способ-

ствует повышению эффективности лекционных занятий.

. 2.2 Общие рекомендации при работе с конспектом лекций

В ходе лекционных занятий необходимо вести конспектирование учебного материала. Кон-

спект помогает внимательно слушать, лучше запоминать в процессе осмысленного записывания,

обеспечивает наличие опорных материалов при подготовке к лабораторным занятиям, зачету, эк-

замену.

Полезно оставить в рабочих конспектах поля, на которых делать пометки из рекомендован-

ной литературы, дополняющие материал прослушанной лекции, а также подчеркивающие особую важность тех или иных теоретических положений.

В случае неясности по тем или иным вопросам необходимо задавать преподавателю уточ-

няющие вопросы. Следует ясно понимать, что отсутствие вопросов без обсуждения означает в большинстве случаев неусвоенность материала дисциплины.

. 2.3 Контрольные вопросы

1.Data Mining: классификация и регрессия. Машинное обучение.

2.Области применения методов машинного обучения

3.Способы машинного обучения: обучение с учителем и без учителя.

4.Data Mining: задача ассоциации.

5.Методы формирования тестовой и обучающей выборки.

6.Data Mining: задача кластеризации.

7.Искусственные нейронные сети. Многослойный персептрон и его обучение с помощью алгоритма обратного распространения ошибки.

8.Описание модели Карта Кохонена.

9.Алгоритмы ограниченного перебора.

7

10.Деревья решений. Алгоритм ID3.

11.Ассоциативные правила. Алгоритм a priorty.

12.Кластеризация. Алгоритм обучения сети Кохонена.

13.Описать метод k ближайших соседей.

14.Описать наивный байесовский классификатор.

15.Критерии оптимизации деревьев решений (упрощение деревьев решений).

16.Современные пакеты прикладных программ анализа, включающие методы машинного

обучения.

3.Методические указания по подготовке к лабораторным занятиям

. 3.1 Общие рекомендации по подготовке к лабораторным занятиям

В ходе подготовки к лабораторным занятиям необходимо изучать основную литературу, по-

знакомиться с дополнительной литературой. При этом необходимо учесть рекомендации препода-

вателя и требования учебной программы.

В соответствии с этими рекомендациями и подготовкой полезно дорабатывать свои конспек-

ты лекции, делая в нем соответствующие записи из литературы, рекомендованной преподавателем и предусмотренной учебной программой. Целесообразно также подготовить тезисы для возмож-

ных выступлений по всем учебным вопросам, выносимым на лабораторные занятия.

При подготовке к занятиям можно также подготовить краткие конспекты по вопросам темы.

Очень эффективным приемом является составление схем и презентаций.

Своевременное и качественное выполнение самостоятельной работы базируется на соблюде-

нии настоящих рекомендаций и изучении рекомендованной литературы.

. 3.2 Примеры заданий для лабораторных занятий Задание 1. Классификация на основе Дерева решений

Разделить все районы Нижегородского региона на различные классы по уровню дохода бюджета при помощи инструментов Квантование и Дерево решений (данные взять из файла

показатели.txt или из созданного ранее ХД Регион).

Для этого:

а) Нужно найти средние значения показателей по каждому району за весь исследуемый период;

б) Значения поля «доход бюджета» при помощи обработчика «Квантование» нужно разбить на три диапазона «низкий доход», «средний доход», «высокий доход».

в) С помощью обработчика «Дерево решений» получить правила, применяя которые можно

определить к какому их трех возможных уровней дохода будет относиться произвольный район.

8

г) Оценить качество построенной классификационной модели по таблице сопряженности и соответствующей ей диаграмме.

Задание 2. Классификация на основе Дерева решений

1) Построить классифицирующее Дерево решений для отнесения водных объектов на осно-

ве показателя ИЗВ (индекс загрязнения воды) к определенному классу вод, используя критерии,

описанные в таблице.

Таблица. Классы качества вод в зависимости от значения ИЗВ

Значение ИЗВ

Воды

до 0,2

Очень чистые

0,2

– 1,0

Чистые

 

 

 

1,0

– 2,0

Умеренно загрязненные

2,0

– 4,0

Загрязненные

4,0

– 6,0

Грязные

6,0

– 10,0

Очень грязные

2) Результаты классификации отобразить на диаграмме «Процентное соотношение качества вод региона». Ответить на вопрос: какой процент водных объектов Нижегородской области отно-

сится к классу Загрязненных вод.

Задание 3. Построение модели отклика получателей рассылки на активных и неактив-

ных при помощи алгоритма построения дерева решений.

Торговая компания, осуществляющая продажу товаров, располагает информацией о своих клиентах и их покупках. Компания провела рекламную рассылку 13 504 клиентам и получила от-

клик в 14,5 % случаев. Необходимо построить модели отклика и проанализировать результаты,

чтобы предложить способы минимизации издержек на новые почтовые рассылки.

Данные находятся в файлах responses1.txt (обучающее множество) и responses2.txt (тестовое множество). Они представлены таблицами со следующими полями:

Таблица 1 – Поля наборов данных «Отклики»

N

Поле

Описание

Тип

1

Код клиента

Уникальный идентификатор

целый

2

Пол

Пол клиента

строко-

 

 

 

вый

3

Сколько лет клиенту

Число лет с момента первой покупки. Если

целый

 

 

менее года, то в поле стоит 0

 

4

Кол-во позиций товаров

Сколько уникальных товаров приобретал клиент

целый

5

Доход с клиента, тыс. ед.

Суммарная стоимость всех заказов клиента

вещест.

6

Число покупок в тек. го-

Сколько раз клиент делал заказ в текущем году

целый

 

ду

 

 

7

Обращений в службу

Сколько раз клиент обращался в службу поддержки

целый

 

поддержки

 

 

8

Задержки платежей

Задержки клиента фиксируются, когда длительное

целый

 

 

время после заказа оплата не поступает

 

9

9

Дисконтная карта

Является ли клиент участником дисконтных про-

целый

 

 

грамм, дающих право на скидки

 

10

Возраст

Возраст клиента

целый

11

Отклик

Отклик клиента на последнюю рассылку.

целый

 

 

Значение «1» означает, что клиент совершил покуп-

 

 

 

ку после прямой адресной рассылки.

 

12

Дата отклика

Информационное поле (пустое, если отклика не бы-

дата

 

 

ло)

 

1. Построить и изучить Матрицу корреляции для оценки влияния входных переменных на выход-

ную.

2.Для получения правил классификации запустить обработчик Дерево решений.

3.Изучите визуализаторы «Дерево решения», «Правила», «Значимость атрибутов», «Матрица классификации».

4.Изменяя порог отсечения построить новые модели, выбрать модель, лучшую с точки зрения точности и интерпретации. Выписать наиболее значимые правила.

5.Построить дерево решений на сбалансированном обучающем множестве и посмотреть те же ви-

зуализаторы и сделать вывод о качестве моделей.

6. Построить интерактивное дерево решений на сбалансированной выборке, приняв во внимание

пожелания экспертов:

Первым атрибутом должен быть «Сколько лет клиент».

Вторым атрибутом – «Доход с клиента». Всех клиентов нужно разбить на 3 категории:

малоприбыльные (до 20 тыс. ед.), дающие умеренный (от 20 тыс. до 50 тыс. ед.) и высокий доход (свыше 50 тыс.ед.).

7. Изучить визуализаторы для интерактивного дерева. Выписать наиболее значимые и инте-

ресные правила.

8. Прогнать через лучшую модель тестовое множество и сделать выводы о качестве классифи-

кации.

9. Проведенное исследование оформить в виде отчета

Задание 4.

1.Загрузить данные transactions.txt

2.Настройки параметров построения ассоциативных правил:

Поддержка: 1%< S<20%, Достоверность: 40%< S<90%

3.Записать:

1)Количество популярных наборов =

2)Количество популярных наборов, удовлетворяющих поддержке >6% =

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]