- •Что такое машинное обучение
- •Искусственный интеллект
- •Иерархия задач машинного обучения
- •Вопросы для самоконтроля и контроля
- •Практические задания
- •Список источников
- •Принцип машинного обучения
- •Модели машинного обучения
- •Классы задач машинного обучения
- •Принцип решения задач обучения с учителем (supervised learning)
- •Регрессионный анализ
- •Классификация объектов
- •Вопросы для самоконтроля и контроля
- •Практические задания
- •Список источников
- •Классы задач машинного обучения
- •Обучение без учителя (unsupervised learning)
- •Задачи кластеризации объектов
- •Задачи снижения размерности описания объектов
- •Задачи поиска правил, описывающих закономерности в описании объектов
- •Обучение с подкреплением (Reinforcement Learning)
- •Библиотеки и фреймворки машинного обучения
- •Вопросы для самоконтроля и контроля
- •Практические задания
- •Список источников
- •Постановка задачи построения линейной регрессии
- •Решение задачи. Нормальная система уравнений
- •Пример построения линейной регрессии
- •Пример неустойчивости метода НК
- •L2-регуляризация
- •L1-регуляризация
- •Вопросы для самоконтроля и контроля
- •Практические задания
- •Список источников
< |
— |
> |
Рис. 1: Типология классических задач машинного обучения ( [1])
2Обучение без учителя (unsupervised learning)
Взадачах обучения без учителя нам не известны метки (классы), которым принадлежат объекты. Нам нужно проанализировать структуру данных, чтобы понять как лучше подготовить данные и свести данную задачу к задачам обучения с учителем. Т.е. решение этих задач, как правило, предшествуют решению задач с обучения с учителем, играют вспомогательную роль.
Перечислим задачи анализа данных, с которыми обычно сталкивается дата-машинист, прежде чем сможет реализовать машинное обучение и решение реальной задачи
∙предобработка данных: заполнение пропусков, приведение к удобному формату;
∙добавление новых более удобных предикторов, меток объектов;
∙графический и статистический анализ распределений объектов по имеющимся параметрам, по каждому параметру отдельно;
∙выявить структуру данных:
–снизить размерность данных с сохранением структуры,
–графически проанализировать структуру данных,
« |
3 |
» |
< |
— |
> |
Рис. 2: Примеры классических задач машинного обучения ( [5])
–кластеризовать объекты, чтобы выделить классы типовых, похожих друг на друга объектов, проанализировать их генезис, чтобы подумать как их можно использовать для решения поставленных задач.
Кзадачам анализа структуры данных, в частности, относятся (см. рис. 1):
∙задача кластеризации данных; эту задачу приходится решать в том числе, чтобы разметить объекты;
∙задача снижения размерности данных, задача многомерного шкалирования, факторный анализ;
∙поиск правил, объясняющих причинную взаимосвязь между различными признаками в данных.
Рассмотрим виды и примеры таких задач (см. рис. 2).
« |
4 |
» |
< |
— |
> |
2.1Задачи кластеризации объектов
Определение 2.1 (Кластеризация объектов). Кластеризация — объединение похожих объектов в группы, или кластеры. Кластеризацию также называют кластерным анализом или анализом пространственной структуры объектов.
Рис. 3: Задача выделения кластеров схожих объектов
Результаты кластеризации зависят от метода и от того, как оценивать схожесть или различие объектов, т.е. расстояние между ними. Чем дальше объекты друг от друга, тем меньше сходства и больше различия. Кластеризация отличается от задачи классификации тем, что классы здесь заранее неизвестнеы и задачей кластеризации и является определить какие объекты в какие классы (кластеры) должны объединиться (см. рис. 3). Результат кластерного анализа и может служить разметкой данных для дальнейшего прмиенения методов обучения с учителем.
Пример 2.1 (Кластерный анализ: выявить кластеры типичных слушателей на онлайн-курсе).
Вы имеете большую статистику поведения слушателей на онлайн-курсе - как они проходят курс, как набирают баллы, в какой последовательности смотрят материалы. Вам хочется выделить обучающихся с похожим (типичным) поведением для того, чтобы выстроить для них эффектиное сопровождение.
Пример 2.2 (Кластерный анализ: выявить кластеры типичных покупателей в супермаркетах или на сайте интернет-магазина). Вы имеете большую статистику поведения слушателей на онлайн-курсе - как они проходят курс, как набирают баллы, в какой последовательности смот-
« |
5 |
» |
< |
— |
> |
рят материалы. Вам хочется выделить обучающихся с похожим (типичным) поведением для того, чтобы выстроить для них эффектиное сопровождение.
Иногда важно не только выделить типичные объекты в кластеры, но и найти и выделить аномалии - нетипичные объекты, которые непохожи на других объектов. Можно считать эту задачу поиска аномалий - дополнением к задаче кластеризации. Некоторые методы кластеризации одновременно размечают и аномальные объекты.
Пример 2.3 (Поиск аномалий: обнаружение попыток подбора паролей). Компания предоставляет услуги онлайн-платежей. На счетах ее клиентов хранятся денежные средства. Клиенты заходят в свои аккаунты и совершают платежные операции. Бывает, что клиент забывает пароль и начинает вводить разные вариации, вспоминая свой пароль. А бывает, что злоумышленник пытается подобрать пароль к аккаунтам клиентов. Имеются разные способы подбора парлей. Злоумышленник может подбирать варианты пароля к одному аккаунту или, найдя гдето базу паролей, проверяет пару логин-пароль в данной платежной системе. Задача машинного обучения заключается в том, чтобы, на основе анализа потока событий, выявить такие аномалии поведений клиентов, чтобы вовремя заблокировать ip-адреса злоумышленника, с которых идет перебор паролей.
2.2Задачи снижения размерности описания объектов
Снижение размерности описания объектов может быть полезно в нескольких отношениях:
Рис. 4: Снижение размерности: каждая точка на плоскости представляет результат кодирования изображения цифры размером 28 х 28 пикселей с помощью метода снижения размерности tSNE; цвет соответствует изображенной цифре; видно, что изображения различных цифр достаточно хорошо отделимы ( [3], [4])
« |
6 |
» |