Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
8707.pdf
Скачиваний:
3
Добавлен:
25.11.2023
Размер:
1.83 Mб
Скачать

<

>

Рис. 1: Типология классических задач машинного обучения ( [1])

2Обучение без учителя (unsupervised learning)

Взадачах обучения без учителя нам не известны метки (классы), которым принадлежат объекты. Нам нужно проанализировать структуру данных, чтобы понять как лучше подготовить данные и свести данную задачу к задачам обучения с учителем. Т.е. решение этих задач, как правило, предшествуют решению задач с обучения с учителем, играют вспомогательную роль.

Перечислим задачи анализа данных, с которыми обычно сталкивается дата-машинист, прежде чем сможет реализовать машинное обучение и решение реальной задачи

предобработка данных: заполнение пропусков, приведение к удобному формату;

добавление новых более удобных предикторов, меток объектов;

графический и статистический анализ распределений объектов по имеющимся параметрам, по каждому параметру отдельно;

выявить структуру данных:

снизить размерность данных с сохранением структуры,

графически проанализировать структуру данных,

«

3

»

<

>

Рис. 2: Примеры классических задач машинного обучения ( [5])

кластеризовать объекты, чтобы выделить классы типовых, похожих друг на друга объектов, проанализировать их генезис, чтобы подумать как их можно использовать для решения поставленных задач.

Кзадачам анализа структуры данных, в частности, относятся (см. рис. 1):

задача кластеризации данных; эту задачу приходится решать в том числе, чтобы разметить объекты;

задача снижения размерности данных, задача многомерного шкалирования, факторный анализ;

поиск правил, объясняющих причинную взаимосвязь между различными признаками в данных.

Рассмотрим виды и примеры таких задач (см. рис. 2).

«

4

»

<

>

2.1Задачи кластеризации объектов

Определение 2.1 (Кластеризация объектов). Кластеризация — объединение похожих объектов в группы, или кластеры. Кластеризацию также называют кластерным анализом или анализом пространственной структуры объектов.

Рис. 3: Задача выделения кластеров схожих объектов

Результаты кластеризации зависят от метода и от того, как оценивать схожесть или различие объектов, т.е. расстояние между ними. Чем дальше объекты друг от друга, тем меньше сходства и больше различия. Кластеризация отличается от задачи классификации тем, что классы здесь заранее неизвестнеы и задачей кластеризации и является определить какие объекты в какие классы (кластеры) должны объединиться (см. рис. 3). Результат кластерного анализа и может служить разметкой данных для дальнейшего прмиенения методов обучения с учителем.

Пример 2.1 (Кластерный анализ: выявить кластеры типичных слушателей на онлайн-курсе).

Вы имеете большую статистику поведения слушателей на онлайн-курсе - как они проходят курс, как набирают баллы, в какой последовательности смотрят материалы. Вам хочется выделить обучающихся с похожим (типичным) поведением для того, чтобы выстроить для них эффектиное сопровождение.

Пример 2.2 (Кластерный анализ: выявить кластеры типичных покупателей в супермаркетах или на сайте интернет-магазина). Вы имеете большую статистику поведения слушателей на онлайн-курсе - как они проходят курс, как набирают баллы, в какой последовательности смот-

«

5

»

<

>

рят материалы. Вам хочется выделить обучающихся с похожим (типичным) поведением для того, чтобы выстроить для них эффектиное сопровождение.

Иногда важно не только выделить типичные объекты в кластеры, но и найти и выделить аномалии - нетипичные объекты, которые непохожи на других объектов. Можно считать эту задачу поиска аномалий - дополнением к задаче кластеризации. Некоторые методы кластеризации одновременно размечают и аномальные объекты.

Пример 2.3 (Поиск аномалий: обнаружение попыток подбора паролей). Компания предоставляет услуги онлайн-платежей. На счетах ее клиентов хранятся денежные средства. Клиенты заходят в свои аккаунты и совершают платежные операции. Бывает, что клиент забывает пароль и начинает вводить разные вариации, вспоминая свой пароль. А бывает, что злоумышленник пытается подобрать пароль к аккаунтам клиентов. Имеются разные способы подбора парлей. Злоумышленник может подбирать варианты пароля к одному аккаунту или, найдя гдето базу паролей, проверяет пару логин-пароль в данной платежной системе. Задача машинного обучения заключается в том, чтобы, на основе анализа потока событий, выявить такие аномалии поведений клиентов, чтобы вовремя заблокировать ip-адреса злоумышленника, с которых идет перебор паролей.

2.2Задачи снижения размерности описания объектов

Снижение размерности описания объектов может быть полезно в нескольких отношениях:

Рис. 4: Снижение размерности: каждая точка на плоскости представляет результат кодирования изображения цифры размером 28 х 28 пикселей с помощью метода снижения размерности tSNE; цвет соответствует изображенной цифре; видно, что изображения различных цифр достаточно хорошо отделимы ( [3], [4])

«

6

»

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]