Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
8707.pdf
Скачиваний:
3
Добавлен:
25.11.2023
Размер:
1.83 Mб
Скачать

<

>

цикл применения модели состоит из шагов: загружаем модель (load), делаем прогноз (Make predictions).

Рис. 1: Принцип машинного обучения: есть цикл обучения модели (Build Model) и есть цикл использвания модели (Use Model) ( [3])

Рассмотрим концептуальную модель данных и модели машинного обучения (см. [4]).

2Модели машинного обучения

Определение 2.1 (Модель данных для обучения). Пусть

имеется конечное или бесконечное множество изучаемых однородных объектов (объекты реального мира/ситуации/процессы) O;

для некоторых объектов ( ), = 1,.., мы можем получить их информационные описания

( )

( ) = (1 ), (2 ), ..., ( ) , = 1,..,

«

3

»

<

>

,

в виде векторов признаков, их характеризующих (n признаков);

для некоторых из этих объектов ( ), = 1,.., мы также имеем значение интересующего нас показателя (ответа)

, = 1,..,

.

Таким образом, у нас есть множество описаний объектов ( ), = 1,.., и могут быть известны cответствующие им (объектам) - метки , = 1,.., .

Определение 2.2 (Объектно-признаковая матрица). Если мы объединим все описания объектов в одной матрице X, каждая строка которой содержит описание какого-то одного объекта, то мы получим объектно-признаковую матрицу. Число строк данной матрицы совпадает с числом описываемых матрицей объектов, а число столбцов совпадает с числом признаков, с помощью которых мы описываем эти объекты.

Все известные ответы мы также можем объединить в одной матрице-столбце Y.

Признаковые описания объектов сильно зависят от специфики задачи. Например, если объекты - это картинки, то признаки - это яркости пикселей. Если картинка цветная, то яркости пикселей в зависимости от каждого цвета. Если объектами являются тексты, то признаками могут быть частоты появления слов из словаря.

Различают несколько видов признаков.

Определение 2.3 (Виды признаков, описывающих объекты). Обозначим множество возможных значений признака через . Тогда

- бинарный признак, если = {0, 1};

- номинальный или категориальный признак, если - перечислимое множество неупорядоченных значений (Иванов, Сидоров, Петров, ...);

- порядковый признак, если - перечислимое множество упорядоченных значений (черный, серый, белый);

- количественный признак, если = (числа);

Определение 2.4 (Обучающая выборка). Под обучающей выборкой мы будем понимать некоторое множество L объектов, для которых известно их признаковое описание ( ), = 1,.., и, возможно, их метки , = 1,.., (L - Learning, обучение).

Эти описания мы будем объединять и обозначать матрицей , каждая строка которой содержит описание какого-то объекта выборки. Все известные ответы мы также будем обозначать .

«

4

»

<

>

Также нам будут нужны и другие выборки для анализа полученной модели - тестовая или контрольная. Их объектно-признаковую матрицу также будем обозначать буквами или

, а соответствующие метки или .

Мы бы хотели получить ответы - значение интересующего нас показателя (распознать объект, оценить ожидаемую прибыль, узнать прогноз погоды, спрогнозировать изменение цены, ...), когда будет предъявлен новый объект, который еще не встречался нам ранее.

Определение 2.5 (Решающая функция или модель машинного обучения). Таким образом, у нас есть множество описаний объектов ( ), = 1,.., и могут быть известны cответствующие им (объектам) - метки , = 1,.., .

Функция fm, которая отображает с какой-то точностью множество описаний объектов X

в множество ответов Y называется решающей функцией или моделью машинного обучения. Предполагается, что модель должна хорошо описывать некоторую неизвестную функцию f:

: →

Определение 2.6 (Алгоритм машинного обучения). Алгоритм a, который по известной обучающей выборке (, ) строит модель называется алгоритмом машинного обучения:

= ( , )

Такоим образом решение задачи машинного обучения - это построение алгоритма машинного обучения, который на основании обучающей выборки строит модель, которая затем используется для поиска ответов на новые вопросы.

3Классы задач машинного обучения

Взависимости от того, какие вопросы ставятся перед моделью и в зависимости от того, известны ли правильные ответы для входных данных или нет, различают следующие типы задач машинного обучения (см. рис.2, [5]).

"Обучение с учителем"или "Обучение по прецедентам"(supervised learning). В этом классе задач известны (прецеденты) - описания объектов ( ) и ответы для них (метки) для достаточно большого набора объектов. В этом случае говорят, что имеются размеченные данные. Подразумевается, что Учитель знает ответы на задания и обучает модель, показывая ей правильные ответы, чтобы она также могла находить эти ответы в будущем. Это очень похоже на обучение в школе. Когда ответы на учебные задачи заранее известны учителю.

"Обучение без учителя". В этом классе задач известны только описания объектов ( ) для достаточно большого набора объектов. Подразумевается, что модель должна сама разметить данные (найти ответы), чтобы свести задачу к задаче обучения с учителем.

«

5

»

<

>

Рис. 2: Типология классических задач машинного обучения ( [5])

"Обучение с подкреплением"(Reinforcement Learning). Это нечто среднее между обучением с учителем и без. В этом классе задач также известны только описания объектов ( ). Подразумевается, что модель также должна сама искать ответы для объектов. Но, после того, как модель найдет ответ, учитель/жизнь может поощрить Вас за верный ответ или оштрафовать за плохой ответ (подкрепление). Это больше похоже на обучение в реальной жизни. Когда правильный ответ заранее никто не знает и можно понять насколько ответ был правильным только после принятия решения. Жизнь сама подскажет - правильным было решение или нет.

Рассмотрим более подробно каждый вид задачи в отдельности и приведем примеры ( [4]).

«

6

»

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]