Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

трольной выборках, то обучение сети происходит в правильном направлении. Такое свойство сети, обученной на одних данных, показывать одинаково хорошие результаты на новой контрольной выборке, свидетельствует о её способности к обобщению. Иначе может снижаться ошибка на обучающей выборке, но происходить ее увеличение на контрольной. Последнее означает, что сеть «переобучилась» и уже не может быть использована для прогнозирования или классификации.

По мнению В.Г. Царегородцева [75], контрольная выборка используется ещё и для проверки адекватности построенной модели, поэтому требуется, чтобы контрольная последовательность была представительной. Если данных недостаточно, то адекватность модели подтвердить невозможно.

Внейросетевом варианте для прогнозирования, как правило, используются классические многослойные персептроны с сигмоидальными функциями активации, обучаемые при помощи стандартных методов типа backpropagation, qiuckpropagation

[74; 80]. Все эти методы минимизируют дисперсию ошибки предсказания значений обучающей выборки.

7.9.Ансамбли нейронных сетей

Впроцессе решения сложных вычислительных задач нейронными сетями используются разные алгоритмы: многослойные перцептроны, радиальные базисные функции и др. На разных участках исходных данных в «среднем» несколько хороших сетей могут иметь повышенные значения остатков. К примеру, первая сеть – на начальном участке, вторая – на средней части, а третья – на конечном участке последовательности данных. Или первая сеть даёт сумму остатков положительную, а вторая – отрицательную. Если ни один алгоритм идеально не подходит для решения одной и той же задачи, объединение нескольких моделей может привести к созданию гораздо более мощной модели [4; 74]. Ансамбли (комитет сетей) не простое усреднение сетей,

асочетание сразу нескольких алгоритмов, которые обучаются одновременно и компенсируют (исправляют) ошибки друг дру-

291

га. На сегодняшний день именно они дают самые точные результаты, поэтому именно их чаще всего используют все крупные пакеты программ. При этом используются известные технологии, такие как бэггинг, бустинг, стекинг и некоторые другие, которые являются основами ансамблевых методов.

Мерилом качества модели является разность – практика минус теория, или остаток. В регрессионном анализе мы указывали, что остаток должен подчиняться нормальному закону распределения с нулевым средним. Если среднее отличается от нуля, это будет смещение (или систематическая погрешность). Помимо смещения, остаток характеризуется средним квадратическим отклонением, характеризующим разброс остатков.

Чтобы получить удовлетворительные результаты, сначала необходимо отобрать сети для ансамбля. В основном (в том числе в хорошо известных методах бэггинга и бустинга) используется единственный базовый алгоритм обучения, так что у нас есть однородные сети, которые обучаются по-разному. Получаемая нами модель ансамбля будет именоваться однородной. Существуют методы объединения различных типов базовых алгоритмов обучения: некоторые разнородные сети затем объединяются в разнородный ансамбль [4; 74; 80].

Одним из важных моментов является то, что наш выбор сетей в ансамбль должен быть согласован с тем, как мы агрегируем эти модели. Если мы выбираем сети с низким смещением, но высоким разбросом, это должно быть с помощью метода агрегирования, имеющего тенденцию уменьшать разброс, а если мы выбираем сети с низким разбросом, но высоким смещением, это должен быть метод агрегирования, имеющий тенденцию уменьшать смещение [4].

Бэггинг. Эта процедура рассматривает однородные сети, обучает их параллельно и независимо друг от друга, а затем объединяет их, следуя некоторому детерминированному процессу усреднения.

Бустинг. В этой технологии рассматривают сети, обучают их последовательно адаптивным способом (последующая сеть

292

зависит от предыдущих) и объединяют их, следуя детерминированной стратегии.

Стекинг. В этом случае часто учитывают разнородные сети, обучают их параллельно и объединяют их, получая ансамбль.

Считается, что бэггинг будет в основном сосредоточен на получении ансамблевой модели с меньшим разбросом, чем ее компоненты, в то время как бустинг и стекинг в основном будут пытаться производить ансамбли с меньшим смещением, чем их компоненты [74; 75].

7.10.Нейронные сети в программном продукте Statistica

7.10.1.Функции нейронных сетей в программном

продукте Statistica

Вразделах, посвящённых регрессионному анализу, мы создавали модели, в которых зависимость между функцией и аргументами описывается математической формулой в явном виде. В регрессионном анализе предполагается, что функция зависит от аргументов априори известной линейной (аддитивной) зависимостью. Не исключается возможность использования и иных – нелинейных (мультипликативных или смешанных) моделей. Если выбрана та или иная математическая функция, все, что требуется сделать, вычислить параметры принятой нами модели так, чтобы наша модель наилучшим образом приближала (предсказывала) значение функции для заданных значений аргументов. Уравнения регрессии относятся к категории так называемых параметрических методов моделирования.

Внепараметрических моделях зависимость между вход-

ными и выходными переменными определяется различными аппроксиматорами (как, например, нейронная сеть), которые невозможно представить одной стандартной и заранее известной математической функцией. В моделях этого типа, вообще говоря, не делается никаких предположений о связи зависимой переменной и аргументов. Предполагается, что истинная функ-

293

ция, на основе которой производится моделирование, априори неизвестна, поэтому в литературе её называют черным ящиком. Вместо этого в модели пытаются найти математическую функцию (зачастую не имеющую простой формы), которая способна достаточно хорошо объяснять (аппроксимировать) зависимую переменную имеющимися аргументами. Наиболее известными примерами непараметрических моделей являются полиномиальные функции с настраиваемыми параметрами (перцептроны) и нейронные сети.

Так как не предполагается никаких простых форм взаимосвязи между функцией и аргументами, непараметрический метод должен быть достаточно гибким, чтобы моделировать широкий спектр функциональных зависимостей. Например, чем выше степень полинома, тем более гибкой является модель (с учётом ограничения вычислительных возможностей ЭВМ). Аналогично, чем больше нейронов имеет нейронная сеть, тем более сложной становится модель.

Как правило, параметрические модели имеют некоторые преимущества. Они связаны с простотой их использования, а также в таких моделях проще интерпретировать выходные значения. В то же время параметрические модели имеют ограниченную гибкость. Как следствие, полезность таких моделей зависит от того, насколько адекватными являются наши предположения о взаимосвязи входных и выходных переменных. К сожалению, многие реальные практические задачи очень непросто описать с помощью простых форм зависимости, и параметрическое представление зависимости в таких случаях сильно ограничено по сравнению с реальной зависимостью. Поэтому исследователи нередко пользуются именно непараметрическими моделями, главным образом нейронными сетями, как альтернативой параметрическим методам.

Нейронные сети, как и большинство статистических инструментов, могут быть также использованы при решении разных задач статистики. На рис. 7.7 представлено окно загрузки нейронных сетей и предлагаемые инструменты анализа.

294

Рис. 7.7. Основное окно и виды статистического анализа

В программный модуль «Нейронные сети» пакета Statistica включены следующие виды анализа.

Регрессия. Этот инструмент позволяет найти некоторую зависимость функции от аргументов, наиболее близко соответствующую набору экспериментальных данных. Он обычно используется, когда зависимые переменные являются непрерывными по своей природе (например, мощность пласта, отметка кровли, содержание полезных и вредных веществ и т. д.) и когда в модель не входят смещённые во времени аргументы.

Классификация. Под классификацией понимают отнесение предъявленного объекта (или ситуации) по его формализованному описанию к одному из заданных классов. К классификации обычно обращаются, когда зависимые переменные являются категориальными (например, газодинамическое явление произошло или нет или тип полезного ископаемого – сильвинит, карналит). Такая целевая переменнаядолжна быть только одна.

Временные ряды. Этот тип анализа используется, когда зависимая переменная является непрерывной и имеет смещение во времени или в пространстве. Диалоговое окно выбора переменных позволяет выбирать непрерывные целевые переменные, не требуя входных переменных. Правда в таком случае можно выбрать только одну целевую переменную.

Временные ряды (классификация). Этот тип анализа ис-

пользуется, когда целевая (зависимая) переменная является ка-

295

тегориальной и необходимо строить смещенный во времени (или в пространстве) прогноз. Диалоговое окно выбора переменных позволяет выбирать категориальные целевые переменные, не требуя входных переменных. Обратим внимание, что для временных рядов (вид анализа «классификация») можно указать только одну целевую переменную.

Кластерный анализ. В процессе выполнения этого анализа производится разбиение множества объектов по их формализованным описаниям на систему непересекающихся подмножеств (классов). По сути, этот анализ без обучения, он основан на алгоритме Кохонена для определения кластеров в данных и аналогичен ранее рассмотренному кластерному анализу.

7.10.2. Применение нейронных сетей для задач классификации

В предыдущих разделах уже рассматривались задачи классификации с обучением и без обучения. Рассмотрим данные на примерах дискриминантного анализа. Загрузим таблицу исходных данных в программу Statistica и откроем модуль нейронные сети (рис. 7.8).

Рис. 7.8. Загрузка автоматизированных нейронных сетей

296

Исходные данные в рассматриваемом примере содержат 524 наблюдения, из которых часть имеют газодинамические явления, они отмечены буквой W. В остальных наблюдениях ГДЯ не встречены, они отмечены буквой N. Наша задача составить такое решающее правило (уравнение) классификации, которое позволит нам отнести данные по новому участку к выбросоопасному или не выбросоопасному типу. Если ранее в нейронных сетях были выполнены и сохранены результаты, то их можно будет загрузить командой «Загрузить модели из предыдущих анализов». Если выполняется новая классификация, то в открытом окне (см. рис. 7.7) выбираем вид анализа «Классификация». В окне на рис. 7.9 необходимо выбрать входные данные и указать подвыборки – обучающую, контрольную и тестовую (рис. 7.10).

Рис. 7.9. Окно ввода данных

Причём указывать наблюдения для подвыборок можно разными способами:

1.Можно заранее разделить все данные на две – три части

ипрописать для каждой из них свои коды. На рис. 7.9 эту переменную с кодами можно было загрузить в разделе «Категориальная входная переменная». А в следующем окне (см. рис. 7.10) эти коды потребовалось бы задать для каждой подвыборки.

2.Подвыборки можно задать программно, случайным образом. Размеры подвыборок в процентах будут установлены программой, но их можно будет изменить (рис. 7.10, а).

297

а

б

Рис. 7.10. Отбор данных: а – задаём размер подвыборок; б – задаём метод создания подвыборок

Рис. 7.11. Ввод типов сетей и их параметров

3. Метод создания подвыборок может быть не только случайным, но и бутсреп. Его особенности заключаются в следующем [24; 73]. Пусть имеется выборка X размера N. Равномерно возьмем из выборки N по одному объекту с возвращением. Это означает, что мы будем N раз выбирать произвольный объект выборки (считаем, что каждый объект «достается» с одинаковой вероятностью 1 / N), причем каждый раз мы выбираем из всех исходных N объектов. Можно представить себе коробку, из ко-

298

торой достают цветные шарики: выбранный на каком-то шаге шарик возвращается обратно в мешок, и следующий выбор опять делается равновероятно из того же числа шариков. Отметим, что из-за возвращения шариков обратно в коробку среди вновь выбранных окажутся повторы. Такой метод будет особенно полезен при малом объёме данных.

После ввода данных о выборках и их размерах нажимаем «Ок» и переходим в режим задания параметров сетей (рис. 7.11).

После проведения вычислений можно анализировать полученные сети (табл. 7.3). Откроем матрицу ошибок (табл. 7.4). Из пяти сетей в первой – шесть ошибок, во второй и четвёртой – по две неверные классификации. Третья и пятая сети не имеют ошибок. Все значения в этих сетях классифицированы корректно.

Таблица 7.3 Фрагмент таблицы со статистикой предсказанных значений

В таблице предсказанных значений можно проверить ошибки классификации, неправильные наблюдения будут помечены. После выбора конкретной сети можно в окне ввода ввести новые данные и выполнить их классификацию (рис. 7.12).

7.10.3. Применение нейронных сетей для проведения регрессии (аппроксимация функции и прогнозирование)

В процессе ведения горных работ комбайн обычно ведут «по пласту». Комбайнёр следит за положением отдельных хорошо выраженных слоёв по стенке выработки и по высоте, ком-

299

байн должен следовать согласно поведению этого слоя. В случае отработки складок комбайн не может следовать строго по пласту, у него есть ограничения по углу подъёма и опускания. По этой причине, когда пласт имеет складчатую структуру, желательно положение кровли пласта знать заранее, чтобы «успеть» проследовать за пластом. Такой прогноз можно реализовать с помощью нейронных сетей.

Выполним прогноз положения пласта с использованием уравнения регрессии и нейронными сетями. В состав аргументов войдут геопространственные составляющие (координаты X, Y, Zз.п.) и мощность пласта (М). Мощность пласта имеет меньшую изменчивость, чем высотная отметка кровли (или почвы) пласта [3]. Функцией будет служить отметка кровли пласта Z_KR. Из исходных данных исключим выбросы по мощности.

Таблица 7.4

Матрица ошибок

300

Соседние файлы в папке книги