Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
40_алгоритмов_Python.pdf
Скачиваний:
8
Добавлен:
07.04.2024
Размер:
13.02 Mб
Скачать

186

Глава 6. Алгоритмы машинного обучения без учителя

В следующих разделах мы рассмотрим различные методы обнаружения ано­ малий.

Использование кластеризации

Алгоритмы кластеризации (например, методом k-средних) могут использовать­ ся для группирования похожих точек данных. Если задать определенный порог, то любая точка за его пределами может быть классифицирована как аномалия. Проблема данного подхода заключается в том, что в группу, созданную с по­ мощью кластеризации k-средних, могут также попасть аномальные точки. Это влияет на объективность, полезность и точность подхода.

Обнаружение аномалий на основе плотности

При подходе, основанном на плотности (density), мы пытаемся найти плотные окрестности. Для этой цели можно использовать алгоритм k-ближайших соседей (k-nearest neighbors, KNN). Отклонения, которые находятся далеко от обнару­ женных плотных окрестностей, помечаются как аномалии.

Метод опорных векторов

Для изучения границ точек данных используется метод опорных векторов (SVM, support vector machine). Любые точки за пределами обнаруженных границ идентифицируются как аномалии.

РЕЗЮМЕ

Вэтой главе мы изучили методы машинного обучения без учителя. Мы узна­ ли способы снижения размерности задачи и рассмотрели ситуации, в которых это требуется. Кроме того, мы познакомились с практическими примерами применения МО без учителя (анализ рыночной корзины и обнаружение ано­ малий).

Вследующей главе мы рассмотрим различные методы обучения с учителем. Начнем с линейной регрессии, а затем перейдем к более сложным методам МО с учителем, таким как алгоритмы на основе дерева решений, SVM и XGBoast. Мы также изучим наивный алгоритм Байеса, который лучше всего подходит для неструктурированных текстовых данных.