Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Нейронные сети и большие данные.docx
Скачиваний:
48
Добавлен:
04.03.2022
Размер:
1.09 Mб
Скачать

Обучение с учителем (supervised learning)

Способ машинного обучения, в ходе которого система принудительно обучается с помощью примеров с «правильными» ответами. Между входами и эталонными выходами (пример->правильный ответ) существует зависимость, но она заранее нам неизвестна. Известно только конечная совокупность обучающих примеров, называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость (построить модель отношений «пример-> ответ»), т.е. построить алгоритм, способный для любого примера выдать достаточно точный ответ. Для измерения точности ответов вводится функционал качества.

Общее описание: каждый пример представляет собой пару «объект – ответ». Требуется найти функциональную зависимость ответов от описаний объектов и построить алгоритм, принимающий на входе описание объекта и выдающий на выходе ответ. Типовой контроль качества моделей – средняя ошибка ответов, выданная алгоритмом.

С помощью обучения с учителем решают следующие задачи:

  1. Классификация – множество допустимых ответов конечно, их связывают метками классов. Класс – множество всех объектов с данным значением метки.

  2. Регрессия – допустимым ответом является действительное число или числовой вектор, при этом множество допустимых ответов не определено.

  3. Ранжирование – ответы надо получить сразу на множестве объектов, после чего отсортировать их по значениям ответов, может сводится к задачам классификации или регрессии. Часто применяется в информационном поиске и анализе текстов.

  4. Прогнозирование – примерами являются отрезки временных рядов, обрывающиеся в тот момент, когда требуется сделать прогноз на будущее, для решения задач прогнозирования применяются методы регрессии или классификации.

Обучение без учителя (unsupervised learning)

Способ машинного обучения, при котором система обучается выполнять поставленную задачу самостоятельно. Как правило, пригоден для решения задач, в которых известны описания множества объектов, при этом требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.

Обучение без учителя обычно применяется совместно с обучением с учителем для проведения экспериментов, позволяющих найти зависимости между примерами и «правильными» ответами системы. Оно также полезно для глубокого анализа данных, так как иногда машина может распознавать закономерности, которые не может выявить человек в силу того, что объем данных слишком большой и трудный для человеческого восприятия.

Общее описание: ответы не задаются, требуется искать зависимости между примерами. Типовой контроль качества моделей отсутствует. Функционал качества может определяться по-разному, например, как отношение средних межкластерных и внутрикластерных расстояний.

С помощью обучения без учителя решают следующие задачи:

  1. Кластеризация – необходимо сгруппировать примеры в кластеры, используя информацию о попарном сходстве примеров.

  2. Поиск ассоциативных правил – исходные данные представляются в виде признаковых описаний, требуется найти такие наборы и такие значения признаков, которые неслучайно часто встречаются в признаковых описаниях объектов.

  3. Фильтрация выбросов – задача обнаружения нетипичных примеров, в некоторых приложениях их поиск является самоцелью (обнаружение мошенничества), в других же – следствием ошибок в данных или неточности модели, т.е. шумом, мешающим настраивать модель, и должны быть удалены из выборки.

  4. Построение доверительной области – необходимо найти область заданного объема с достаточно гладкой границей, содержащей определенную долю выборки, которой мы доверяем.

  5. Сокращение размерности – задача заключается в том, чтобы по исходным признакам с помощью некоторых функций преобразования перейти к наименьшему числу новых признаков, не потеряв при этом никакой существенной информации об объектах выборки. В классе линейных преобразований наиболее известным примером является метод главных компонент.

  6. Заполнение пропущенных значений – необходимо выполнить замену недостающих значений в матрице «объекты – признаки» их прогнозными значениями.