Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

4671

.pdf
Скачиваний:
0
Добавлен:
21.11.2023
Размер:
490.97 Кб
Скачать

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное образовательное учреждение высшего образования

«Нижегородский государственный архитектурно-строительный университет»

Ларичева Т.В.

МАШИННОЕ ОБУЧЕНИЕ

Учебно-методическое пособие по подготовке к лекциям, практическим занятиям

(включая рекомендации по организации самостоятельной работы)

для обучающихся по дисциплине «Машинное обучение» по направлению подготовки 09.04.03 Прикладная информатика

направленность (профиль) Искусственный интеллект в бизнес-аналитике

Нижний Новгород

2023

УДК 004.9

Ларичева Т. В. / Машинное обучение: учебно-методическое пособие / Т. В. Ларичева; Нижегородский государственный архитектурно-строительный университет – Нижний Новгород: ННГАСУ, 2023. – 16 с.– Текст: электронный.

В настоящем учебно-методическом пособии по дисциплине «Машинное обучение» даются конкретные рекомендации учащимся для освоения как основного, так и дополнительного материала дисциплины и тем самым способствующие достижению целей, обозначенных в учебной программе дисциплины. Цель учебно-методического пособия — это помощь в усвоении лекций, в подготовке к практическим занятиям.

Учебно-методическое пособие предназначено для обучающихся в ННГАСУ по дисциплине «Машинное обучение» по направлению подготовки 09.04.03 Прикладная информатика, направленность (профиль) Искусственный интеллект в бизнес-аналитике.

© Т.В. Ларичева, 2023

© ННГАСУ, 2023

2

Оглавление

1.

Общие положения.................................................................................................................

4

 

1.1

Цели изучения дисциплины и результаты обучения ..................................................

4

 

1.2

Содержание дисциплины ..............................................................................................

5

 

1.3

Вспомогательная литература для изучения дисциплины ..........................................

6

2.

Методические указания по подготовке к лекциям ............................................................

6

 

2.1

Общие рекомендации по работе на лекциях ...............................................................

7

 

2.2

Общие рекомендации при работе с конспектом лекций ............................................

7

 

2.3

Контрольные вопросы ...................................................................................................

8

3.

Методические указания по подготовке к практическим занятиям..................................

9

 

3.1

Общие рекомендации по подготовке к практическим занятиям...............................

9

 

3.2

Примеры задач для практических занятий ..................................................................

9

4.

Методические указания по организации самостоятельной работы...............................

12

 

4.1

Общие рекомендации для самостоятельной работы ................................................

13

 

4.2

Темы для самостоятельного изучения .......................................................................

15

3

1. Общие положения

1.1Цели изучения дисциплины и результаты обучения

1.1.Основными целями освоения учебной дисциплины «Машинное обучение» являются формирование теоретических знаний и практических навыков по основам машинного обучения, овладение инструментарием, моделями и методами машинного обучения, а

также приобретение навыков исследователя данных (Data Science) и разработчика математических моделей, методов и алгоритмов анализа данных.

В процессе освоения дисциплины студент должен

Знать:

методологические подходы извлечения знаний из данных и применения соответствующих инструментальных средств;

методы и технологии экспериментальной проверки работоспособности систем машинного обучения;

методы обработки и распространения знаний;

принципы и методы машинного обучения, типы и классы задач машинного обучения;

функциональные возможности современных инструментальных средств и систем программирования в области создания моделей и методов машинного обучения.

Уметь:

применять методы и технологий экспериментальной проверки работоспособности систем машинного обучения;

выбирать и применять методы обработки и распространения знаний;

проводить сравнительный анализ и осуществлять выбор инструментальных средств для решения задач машинного обучения.

Владеть:

методологиями описания, сбора и разметки данных, механизмов контроля за соблюдением указанных методологий;

инструментальными средствами и системами программирования в области создания моделей и методов машинного обучения;

системным подходом для решения поставленных задач;

навыками принятия решений по результатам машинного моделирования.

4

Данная дисциплина позволит студентам не только систематизировать полученные теоретические знания, укрепить исследовательские навыки, но и даст возможность ориентироваться в новом предметном поле прикладной информатики.

1.2 Содержание дисциплины

Материал дисциплины сгруппирован по следующим разделам:

1. Введение в машинное обучение. Типы задач. Метрические классификаторы. Алгоритмы кластеризации

Типы задач машинного обучения. Предмет и задачи машинного обучения и анализа данных.

Основные принципы, задачи и подходы, использование в различных областях науки и индустрии.

Основные этапы эволюции алгоритмов машинного обучения. Общий вид метрического классификатора. Алгоритм K ближайших соседей. Алгоритмы отбора эталонов. Алгоритмы кластеризации с фиксированным количеством кластеров. Алгоритмы кластеризации по плотности.

Иерархическая кластеризация

2. Деревья решений, линейные классификаторы. Нейронные сети

Деревья решений. Правила и анализ качества (точность, полнота). Анализ с помощью ROC

кривой. Алгоритм построения деревьев решений. Критерий информационного выигрыша и критерий Джини. Леса решающих деревьев. Перцептрон и разделяющая гиперплоскость. Переход в пространство повышенной размерности. Метод опорных векторов. Логистическая регрессия.

Градиентный спуск. Нейронные сети и алгоритм обратного распространения градиента. Глубокое обучение, свертки и пулинг.

3. Регрессионный анализ. Ансамблевые методы. Стохастический поиск .

Регрессионный анализ. Линейная регрессия. Полиномиальная регрессия. Смещение и дисперсия. Гребневая регрессия. Голосование. Бутстраппинг. Бустинг, адаптивный бустинг,

градиентный бустинг. Монте-Карло поиск. Алгоритм симулированного отжига. Генетический алгоритм.

5

1.3 Вспомогательная литература для изучения дисциплины

1. Бринк Х., Ричардс Д., Феверолф М. Машинное обучение. - СПб.: Питер, 2017. - 336 с.:

Материалы к книге: https://github.com/brinkar/real-world-machine-learning

2. Плас Дж. Вандер Python для сложных задач: наука о данных и машинное обучение. —

СПб.: Питер, 2018. — 576 с. Материалы к книге: https://github.com/jakevdp/PythonDataScienceHandbook

3. А.Мюллер, С.Гвидо - Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными – 2017. Электронный ресурс свободного доступа: https://owlweb.ru/wp-content/uploads/2017/06/a.myuller-s.gvido-vvedenie-v-mashinnoe-obuchenie-s- pomoshhyu-python.-rukovodstvo-dlya-specialistov-po-rabote-s-dannymi-2017.compressed-1.pdf.

Материалы к книге: https://github.com/amueller/introduction_to_ml_with_python

4. UCI Machine Learning Repository — репозиторий наборов данных для выполнения лабораторных работ по курсу машинного обучения - http://archive.ics.uci.edu/ml/

5https://archive.ics.uci.edu/ml/index.html – Репозиторий наборов данных для машинного обучения (Центр машинного обучения и интеллектуальных систем).

6https://www.kaggle.com – Портал и система проведения соревнований по проблемам анализа данных.

7https://www.mockaroo.com – Сайт для генерации наборов данных.

6

2. Методические указания по подготовке к лекциям

2.1 Общие рекомендации по работе на лекциях

Лекция является главным звеном дидактического цикла обучения. Ее цель — формирование основы для последующего усвоения учебного материала. В ходе лекции преподаватель в устной форме, а также с помощью презентаций передает обучаемым знания по основным,

фундаментальным вопросам изучаемой дисциплины.

Назначение лекции состоит в том, чтобы доходчиво изложить основные положения изучаемой дисциплины, ориентировать на наиболее важные вопросы учебной дисциплины и оказать помощь в овладении необходимых знаний и применения их на практике.

Личное общение на лекции преподавателя со студентами предоставляет большие возможности для реализации образовательных и воспитательных целей.

При подготовке к лекционным занятиям студенты должны ознакомиться с презентаций,

предлагаемой преподавателем, отметить непонятные термины и положения, подготовить вопросы с целью уточнения правильности понимания. Рекомендуется приходить на лекцию подготовленным, так как в этом случае лекция может быть проведена в интерактивном режиме,

что способствует повышению эффективности лекционных занятий.

2.2 Общие рекомендации при работе с конспектом лекций

В ходе лекционных занятий необходимо вести конспектирование учебного материала.

Конспект помогает внимательно слушать, лучше запоминать в процессе осмысленного записывания, обеспечивает наличие опорных материалов при подготовке к семинару, зачету,

экзамену.

Полезно оставить в рабочих конспектах поля, на которых делать пометки из рекомендованной литературы, дополняющие материал прослушанной лекции, а также подчеркивающие особую важность тех или иных теоретических положений.

В случае неясности по тем или иным вопросам необходимо задавать преподавателю уточняющие вопросы. Следует ясно понимать, что отсутствие вопросов без обсуждения означает в большинстве случаев неусвоенность материала дисциплины.

7

2.3Контрольные вопросы

1.Препроцессинг. Масштабирование. Нормировка. Полиномиальные признаки. One-hot encoding.

2.Кластеризация. kMeans, MeanShift, DBSCAN, Affinity Propagation

3.Смещение и дисперсия (bias and variance). Понятие средней гипотезы.

4.Ансамблевые методы. Soft and Hard Voting. Bagging. Случайные леса. AdaBoost.

5.Типы обучения: с учителем, без учителя, с подкреплением, с частичным участием учителя, активное обучение.

6.Бустинг деревьев решений

7.Ошибка внутри и вне выборки. Ошибка обобщения. Неравенство Хёфдинга. Валидация и кросс-валидация.

8.Линейная регрессия. Полиномиальная регрессия. Гребневая регрессия.

9.Размерность Вапника-Червоненкиса. Размерность Вапника-Червоненкиса для перцептрона.

10.Логистическая регрессия. Градиентный спуск

11.Пороговые условия. Эффективность по Парето. Presicion-Recall и ROC кривые. AUC

12.Ансамблевые методы регрессии. RANSAC. Theil-Sen. Huber.

13.Перцептрон. Перцептрон с карманом.

14.Метод опорных векторов. Постановка задачи. Формулировка и решение двойственной задачи. Типы опорных векторов. Ядра.

15.Гипотезы и дихотомии. Функция роста. Точка поломки. Доказательство полиномиальности функции роста в присутствии точки поломки.

16.Деревья решений. Информационный выигрыш, критерий Джини. Регуляризация деревьев. Небрежные решающие деревья.

17.Байесовский классификатор. Типы оценки распределений признаков (Gaussian, Bernoulli,

Multinomial). EM алгоритм.

18.Нейронные сети. Перцептрон Розенблатта. Функции активации. Обратное распространение градиента. Softmax.

19.Стохастическая оптимизация. Hill Climb. Отжиг. Генетический алгоритм

20.Метрические классификаторы. kNN. WkNN. Отбор эталонов. DROP5. Kdtree.

8

3. Методические указания по подготовке к практическим занятиям

3.1 Общие рекомендации по подготовке к практическим занятиям

В ходе подготовки к практическим занятиям необходимо изучать основную литературу,

знакомиться с дополнительной литературой, а также с новыми публикациями в периодических изданиях: журналах, газетах и т.д. При этом необходимо учесть рекомендации преподавателя и требования учебной программы.

В соответствии с этими рекомендациями и подготовкой полезно дорабатывать свои конспекты лекции, делая в нем соответствующие записи из литературы, рекомендованной преподавателем и предусмотренной учебной программой. Целесообразно также подготовить тезисы для возможного выступлений по всем учебным вопросам, выносимым на занятие.

При подготовке к практическим занятиям можно также подготовить краткие конспекты по вопросам темы. Очень эффективным приемом является составление схем и презентаций.

Готовясь к докладу или реферативному сообщению, желательно обращаться за методической помощью к преподавателю. Составить план-конспект своего выступления.

Продумать примеры с целью обеспечения тесной связи изучаемой теории с реальной жизнью.

Своевременное и качественное выполнение самостоятельной работы базируется на соблюдении настоящих рекомендаций и изучении рекомендованной литературы. Студент может дополнить список использованной литературы современными источниками, не представленными в списке рекомендованной литературы, и в дальнейшем использовать собственные подготовленные учебные материалы при написании курсовых и дипломных работ.

3.2 Примеры задач для практических занятий

1. ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ.

1. Подберите набор данных на ресурсах [5, 6, 7] и согласуйте свой выбор с преподавателем.

Студент может предложить синтезированный набор данных.

2. Проведите первичный анализ данных. В результате анализа данных студент должен предоставить следующую информацию о наборе данных:

2.1. Описание набора данных, пояснения, позволяющие лучше понять природу данных.

Назначение набора данных и возможные модели, которые можно построить на основе данного набора данных (практические задачи, решаемые с использованием данного обучающего набора данных). Описание каждого признака и его тип.

9

2.2. Форма набора данных: количество элементов набора, количество признаков, количество пропущенных значений, среднее значение отдельных признаков, максимальные и минимальные значения отдельных признаков и прочие показатели. Предположения, которые можно сделать,

проведя первичный анализ.

2.3. Графические представления, позволяющие судить о неоднородности исследуемого набора данных. Построение графиков желательно произвести по нескольким проекциям

2. ВИЗУАЛИЗАЦИЯ ДАННЫХ

1 Подберите набор данных на ресурсах [5, 6] и согласуйте свой выбор с преподавателем.

Студент может предложить синтезированный набор данных.

2.Проведите первичный анализ данных. Особое внимание следует уделить графическому представлению распрееделений признаков, визуализации взаимосвзей, позволяющие судить о наборе данных. Построение графиков желательно произвести по нескольким проекциям. При анализе данных использовать как можно более разнообразные типы графиков.

3.МЕТРИЧЕСКИЕ МЕТОДЫ КЛАССИФИКАЦИИ

1.Студент самостоятельно выбирает набор данных на ресурсах [5, 6] для построения классификатора с использованием метода ближайших соседей и согласует свой выбор с преподавателем.

2.Выполните построение модели классификации на основе метода ближайших соседей. В

ходе решения задачи необходимо решить следующие подзадачи:

2.1Построение классификатора с заданием K (количества ближайших соседей)

пользователем;

2.2Вычисление оценки hold-out для различнх значений K, а также для различных долей обучающей и тестирующей подвыборок;

2.3Вычисление оценки cross validation для различных значений K, а также для различных значений fold (количества подмножеств при кроссвалидации).

2.4Вычислите оптимальные значения K. Обоснуйте свой выбор. Продемонстрируйте использование полученного классификатора.

4. ЛОГИЧЕСКИЕ МЕТОДЫ КЛАССИФИКАЦИИ.

1.Студент самостоятельно выбирает набор данных на ресурсах [5, 6] для построения классификатора с использованием метода логической классификации и согласует свой выбор с преподавателем.

2.Выполните построение модели классификации на основе дерева классификации. В ходе

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]