Добавил:

ivanov666 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Нижегородский Государственный Архитектурно-Строительный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

8707.pdf

Скачиваний:

Добавлен:

25.11.2023

Размер:

1.83 Mб

Скачать

☆

<<< < Предыдущая 1 2 3 4 56 / 126 7 8 9 10 11 12 > Следующая >>>

—

Рис. 1: Типология классических задач машинного обучения ( [1])

2Обучение без учителя (unsupervised learning)

Взадачах обучения без учителя нам не известны метки (классы), которым принадлежат объекты. Нам нужно проанализировать структуру данных, чтобы понять как лучше подготовить данные и свести данную задачу к задачам обучения с учителем. Т.е. решение этих задач, как правило, предшествуют решению задач с обучения с учителем, играют вспомогательную роль.

Перечислим задачи анализа данных, с которыми обычно сталкивается дата-машинист, прежде чем сможет реализовать машинное обучение и решение реальной задачи

∙предобработка данных: заполнение пропусков, приведение к удобному формату;

∙добавление новых более удобных предикторов, меток объектов;

∙графический и статистический анализ распределений объектов по имеющимся параметрам, по каждому параметру отдельно;

∙выявить структуру данных:

–снизить размерность данных с сохранением структуры,

–графически проанализировать структуру данных,

—

Рис. 2: Примеры классических задач машинного обучения ( [5])

–кластеризовать объекты, чтобы выделить классы типовых, похожих друг на друга объектов, проанализировать их генезис, чтобы подумать как их можно использовать для решения поставленных задач.

Кзадачам анализа структуры данных, в частности, относятся (см. рис. 1):

∙задача кластеризации данных; эту задачу приходится решать в том числе, чтобы разметить объекты;

∙задача снижения размерности данных, задача многомерного шкалирования, факторный анализ;

∙поиск правил, объясняющих причинную взаимосвязь между различными признаками в данных.

Рассмотрим виды и примеры таких задач (см. рис. 2).

—

2.1Задачи кластеризации объектов

Определение 2.1 (Кластеризация объектов). Кластеризация — объединение похожих объектов в группы, или кластеры. Кластеризацию также называют кластерным анализом или анализом пространственной структуры объектов.

Рис. 3: Задача выделения кластеров схожих объектов

Результаты кластеризации зависят от метода и от того, как оценивать схожесть или различие объектов, т.е. расстояние между ними. Чем дальше объекты друг от друга, тем меньше сходства и больше различия. Кластеризация отличается от задачи классификации тем, что классы здесь заранее неизвестнеы и задачей кластеризации и является определить какие объекты в какие классы (кластеры) должны объединиться (см. рис. 3). Результат кластерного анализа и может служить разметкой данных для дальнейшего прмиенения методов обучения с учителем.

Пример 2.1 (Кластерный анализ: выявить кластеры типичных слушателей на онлайн-курсе).

Вы имеете большую статистику поведения слушателей на онлайн-курсе - как они проходят курс, как набирают баллы, в какой последовательности смотрят материалы. Вам хочется выделить обучающихся с похожим (типичным) поведением для того, чтобы выстроить для них эффектиное сопровождение.

Пример 2.2 (Кластерный анализ: выявить кластеры типичных покупателей в супермаркетах или на сайте интернет-магазина). Вы имеете большую статистику поведения слушателей на онлайн-курсе - как они проходят курс, как набирают баллы, в какой последовательности смот-

—

рят материалы. Вам хочется выделить обучающихся с похожим (типичным) поведением для того, чтобы выстроить для них эффектиное сопровождение.

Иногда важно не только выделить типичные объекты в кластеры, но и найти и выделить аномалии - нетипичные объекты, которые непохожи на других объектов. Можно считать эту задачу поиска аномалий - дополнением к задаче кластеризации. Некоторые методы кластеризации одновременно размечают и аномальные объекты.

Пример 2.3 (Поиск аномалий: обнаружение попыток подбора паролей). Компания предоставляет услуги онлайн-платежей. На счетах ее клиентов хранятся денежные средства. Клиенты заходят в свои аккаунты и совершают платежные операции. Бывает, что клиент забывает пароль и начинает вводить разные вариации, вспоминая свой пароль. А бывает, что злоумышленник пытается подобрать пароль к аккаунтам клиентов. Имеются разные способы подбора парлей. Злоумышленник может подбирать варианты пароля к одному аккаунту или, найдя гдето базу паролей, проверяет пару логин-пароль в данной платежной системе. Задача машинного обучения заключается в том, чтобы, на основе анализа потока событий, выявить такие аномалии поведений клиентов, чтобы вовремя заблокировать ip-адреса злоумышленника, с которых идет перебор паролей.

2.2Задачи снижения размерности описания объектов

Снижение размерности описания объектов может быть полезно в нескольких отношениях:

Рис. 4: Снижение размерности: каждая точка на плоскости представляет результат кодирования изображения цифры размером 28 х 28 пикселей с помощью метода снижения размерности tSNE; цвет соответствует изображенной цифре; видно, что изображения различных цифр достаточно хорошо отделимы ( [3], [4])

<<< < Предыдущая 1 2 3 4 56 / 126 7 8 9 10 11 12 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
25.11.20231.82 Mб08702.pdf
#
25.11.20231.83 Mб08703.pdf
#
25.11.20231.83 Mб08704.pdf
#
25.11.20231.83 Mб08705.pdf
#
25.11.20231.83 Mб08706.pdf
#
25.11.20231.83 Mб38707.pdf
#
25.11.20231.83 Mб08708.pdf
#
25.11.20231.83 Mб08709.pdf
#
21.11.2023158.63 Кб0871.pdf
#
25.11.20231.83 Mб08710.pdf
#
25.11.20231.83 Mб08711.pdf