- •Линейные пространства векторов. Скалярное произведение. Понятие базиса и линейной независимости элементов линейного пространства. Преобразования базиса.
- •Определение матрицы. Операции с матрицами (умножение на скаляр, сложение, умножение матриц, транспонирование матриц). Обратная матрица и методы ее получения. Функции от матриц.
- •Производные. Необходимое и достаточное условие дифференцируемости функции. Частные производные. Полный дифференциал. Производная и дифференциал сложной функции.
- •Градиент функции. Производные по направлению. Необходимые и достаточные условия экстремума функции многих переменных. Условные экстремумы. Метод множителей Лагранжа.
- •Задачи аппроксимации функций (интерполяция, экстраполяция, приближение в среднем). Способы построения интерполяционного полинома. Аппроксимации на основе ортогональных базисов. Понятие сплайна.
- •Численные методы оптимизации: методы Ньютона и секущей, методы покоординатного и градиентного спуска. Улучшение сходимости градиентных методов.
- •Численные методы оптимизации, основанные на случайных числах. Метод Монте-Карло, линейный случайный поиск, метод оптимизации отжигом.
- •Прямые и итерационные методы решения систем линейных алгебраических уравнений. Методы для систем с матрицами специального вида (ленточные, треугольные, положительно-определенные).
- •Линейные пространства функций (примеры). Скалярное произведение и норма. Операторы над линейными пространствами функций. Функционалы. Собственные числа и функции оператора в пространстве l2.
- •Определение вероятности. Вероятностная модель и вероятностное пространство. Вероятность случайного события и методы ее статистического оценивания по выборке.
- •Модель случайной величины. Закон, функция, плотность распределения. Квантили и моменты распределений, методы их статистического оценивания по выборке.
- •Вероятностные и толерантные интервалы: сходства и различия. Понятия точечного и интервального оценивания. Доверительные интервалы. Несмещенные и эффективные оценки.
- •Параметрическое оценивание распределений случайной величины. Метод моментов. Метод наибольшего правдоподобия и его численная реализация. Способы проверки качества параметрического оценивания.
- •Статистические гипотезы и статистические критерии. Односторонние и двусторонние критерии. Критерии согласия. Параметрические критерии. Ошибки первого и второго рода. Мощность критерия.
- •Модель многомерной случайной величины. Совместные и условные распределения. Условные моменты распределений и их оценивание по выборке. Многомерное распределение Гаусса и его свойства.
- •Случайные процессы и временные ряды. Понятие стационарности. Ковариационная (корреляционная функция). Теорема Карунена-Лоэва. Спектральная плотность случайных процессов.
- •Алгоритмы на графах. Алгоритмы обхода (поиска на) графах. Обнаружение кратчайшего пути и минимального цикла в графе. Построение остовного дерева.
- •Основные понятия машинного обучения. Отличие машинного обучения от статистики. Методы на обучении с учителем. Методы на обучении без учителя. Метрики качества алгоритмов машинного обучения.
- •Цикл обучения. Понятия обучающей и тестовой выборки. Отложенная выборка. Кросс-валидация. Понятия недообучения и переобучения. Дилемма смещения и разброса. Размерность Вапника-Червоненкиса.
- •Понятия классификации и кластеризации. Метрические, иерархические, вероятностные методы классификации и кластеризации. Dbscan и kNn. Оценка качества классификации и кластеризации.
- •Понятие искусственной нейронной сети. Типы нейронных сетей. Понятие стохастического градиента для обучения нейронной сети. Многослойный перцептрон. Сверточные нейронные сети.
- •Методы снижения размерности данных. Метод главных компонент. Метод канонических корреляций. Методы факторного анализа. Нелинейные методы снижения размерности.
- •Принцип повышения размерности пространства. Метод опорных векторов. Понятие и свойства ядра. Метод Kernel-Trick.
- •Построение списка решений и дерева решений. Редукция деревьев решений. Понятие бэггинга и бустинга для деревьев решений. Случайный лес и способы его построения.
- •Обучение с подкреплением. Модели агентов и отклика среды. Задачи, решаемые обучением с подкреплением.
- •Ассоциативный анализ и задача о "покупательской корзине". Алгоритмы аprior и fp-Growth.
- •Способы представления знаний. Модели графов знаний. Полнота графов знаний. Методы прямого и обратного вывода по графам знаний. Онтологическая модель и средства ее реализации.
- •Экспертные методы в принятии решений. Принятие решений при многих критериях. Множество Парето. Экспертные системы поддержки принятия решений.
- •Методы машинного обучения для анализа текстовой информации. Понятие эмбеддинга. Методы построения и использования эмбеддингов при работе с текстом.
- •Генеративные методы машинного обучения. Генеративно-состязательные сети. Вариационные автокодировщики. Байесовские сети. Принципы работы, оценка качества.
Принцип повышения размерности пространства. Метод опорных векторов. Понятие и свойства ядра. Метод Kernel-Trick.
Принцип повышения размерности пространства. Это концепция, используемая в машинном обучении для преобразования данных из более низкой размерности в более высокую, где их легче разделить гиперплоскостью, что особенно полезно в задачах классификации.
Метод опорных векторов (SVM). SVM предлагает найти некоторую гиперплоскость, кривую или линию, которая бы разделяла два класса или более. Разделяющая гиперплоскость должна пролегать таким образом, чтобы максимизировать расстояние между крайними точками подмножеств или, иначе говоря, опорными векторами. Для простоты рассуждений остановимся на решении задачи классификации нового объекта между двумя классами: «зеленый» и «синий» в пространстве двух признаков.
Нотации Г1, Г2 и Г3 обозначают гиперплоскости и их порядковые номера. В приведенном примере оптимальное разделение достигается только линией Г3, т.к. Г1 в принципе не дает корректного разделения, а Г2 имеет сравнительно небольшую величину полосы разделения. Так, если бы мы выбрали в качестве оптимальной разделяющей плоскости Г2, серая метка на графике была бы классифицирована как «зеленый» класс, в то время как она очевидно принадлежит к «синему» классу.
Классификация происходит на основании вычисления отступа наблюдений от разделяющей классы границы:
где – метка класса, может принимать значения и ; – объект наблюдения;
и – искомые гиперпараметры модели, характеризующие положение разделяющей гиперплоскости, при этом и .
В случае если , исследуемый объект находится на удалении или непосредственно на границе получившейся разделяющей полосы и классифицируется правильно. Все отрицательные значения соответствуют ошибкам в работе алгоритма классификации.
Если же объект попадает внутрь разделяющей полосы, величина зазора принимает значение между и , а само наблюдение объявляется выбросом в классическом понимании работы SVM.
Для объяснения работы алгоритма в случае линейной неразделимости вводится поправка на величину ошибки . Задача, стоящая перед SVM, обновляется и теперь состоит в том, чтобы найти такую гиперплоскость, которая одновременно обеспечит наибольшую полосу разделения и наименьшую сумму остатков :
где – норма вектора, перпендикулярного к разделяющей плоскости; – регулируемый параметр модели, задается вручную; – величина отклонения -ого наблюдения от допустимой области вокруг расчетной функции; – число экстремальных значений.
Через настройку опционального параметра модели можно добиться того, чтобы экстремальные наблюдения практически не влияли на конечный результат прогнозирования.
Понятие и свойства ядра. Метод Kernel-Trick. Ядро – это функция, которая вычисляет точечное произведение двух векторов в высокоразмерном пространстве. Подобный тип операций получил название Kernel-Trick, потому что дает всю необходимую информацию о взаимном расположении наблюдений и геометрии пространства без вычисления фактических координат данных в новом более высокомерном пространстве. Во-первых, это вычислительно дешевле, во-вторых, это позволяет работать в потенциально «бесконечномерном» пространстве.
Не каждое ядро может быть использовано в методе Kernel-Trick. Свойства, которыми должно обладать ядро, определяются исходя из требований теоремы Мерсера:
Симметричность: ;
Положительная полуопределенность: , где –весовые функции, – функция ядра.
Говоря формальным языком, матрица Грама, формируемая при оценке функции ядра на любом множестве точек, должна быть положительно полуопределенной. Практический смысл заключается в том, чтобы быть уверенными, что вычисление расстояний между точками в пространстве большей размерности, следует те же законам геометрии Гильбертового и, в частности, Евклидового пространства, что и в исходном пространстве.
Свойства гарантируют, что , где – функция, ставящая в соответствие координатам точки из меньшего пространства, ее же координаты в большем пространстве.
Расстояние между двумя точками в гиперпространстве:
За счет использования различных ядер SVM получает возможность вычислять линейные и нелинейные закономерности в данных:
Линейное – , и полиномиальное – , ядра;
Радиальное ядро: .