Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
АИУС.doc
Скачиваний:
127
Добавлен:
07.05.2019
Размер:
15.2 Mб
Скачать

§2.3. Средства идентификации и оптимизации

2.3.1. Идентификация характеристик технологических объектов

Идентификация технологического объекта представляет собой получение (уточнение) по экспериментальным данным модели объекта, работоспособной для всех эксплуатационных режимов. Для решения задач идентификации может быть использована многочисленная группа методов, в частности, регрессионный анализ (РА), корреляционный анализ (КА), дисперсионный анализ (ДА), диаграмма рассеяния (ДР), проверки статистических гипотез (ПСГ) и др.. Каждый из этих методов имеет свои разновидности. Например, в методе РА выделяют случаи линейного и нелинейного РА, одномерного и многомерного РА. Метод ДА подразделяется на однофакторный, двухфакторный, трехфакторный и т.д.. Каждый метод эффективен для решения определенной группы задач. Так при анализе существенности влияния факторов на выходной показатель при большом числе факторов и значительном изменении Q удобно использовать метод диаграмм рассеяния, если же число факторов невелико и колебания Q незначительны, то эффективнее метод ДА.

При решении задачи идентификации моделей важное значение имеет точность определения значений входных переменных Х. Если ошибками в определении Х можно пренебречь, то можно использовать методы РА, если же значения Х рассматриваются как случайные величины, то применяются методы КА. Методы ПСГ используются в различных задачах, связанных с анализом случайных величин (идентификация закона распределения случайной величины, проверка существенности различий между параметрами распределения), построением доверительных интервалов, оценкой степени согласованности мнений экспертов и др.

2.3.2. Идентификация характеристик технологических объектов с использованием стандартных методов Excel

Суть и этапы регрессионного анализа

Регрессионный анализ заключается в определении аналитического выражения связи зависимой случайной величины Y (называемой так же результативным признаком) с независимыми случайными величинами X1, X2,…Xm (называемыми так же факторами).

Форма связи результативного признака Y с факторами X1, X2,…Xm получила название уравнения регрессии. В зависимости от типа выбранного уравнения различают линейную и нелинейную регрессии (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.).

В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессии. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией.

При изучении регрессии следует придерживаться определенной последовательности этапов:

1. Задание аналитической формы уравнения регрессии и определение параметров регрессии.

2. Определение в регрессии степени стохастической взаимосвязи результативного признака и факторов, проверка общего качества уравнения регрессии.

3. Проверка статической значимости каждого коэффициента уравнения регрессии и определение их доверительных интервалов.

Основное содержание этапов регрессионного анализа

Основное содержание выделенных этапов рассмотрим на примере множественной линейной регрессии, реализованной в режиме «Регрессия» надстройки Пакет анализа Microsoft Excel.

Этап 1. Уравнение линейной множественной регрессии имеет вид

, (2.1)

где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии;

– значения факторных признаков;

– параметры уравнения (коэффициенты регрессии).

Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов (именно этот метод используется в Microsoft Excel). Сущность данного метода заключается в нахождении параметров модели (ai), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т.е.

. (2.2)

Рассматривая S в качестве функции параметров ai и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров ai):

(2.3)

где n – число наблюдений;

m – число факторов в уравнении регрессии.

Решив систему уравнений, находим значения параметров ai, являющихся коэффициентами искомого теоретического уравнения регрессии.

Этап 2. Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов X необходимо знать следующие дисперсии:

- общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов:

, (2.4)

где – среднее значение результативного признака Y;

- факторную дисперсию результативного признака Y, отображающую влияние только основных факторов:

; (2.5)

- остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов:

. (2.6)

При корреляционной связи результативного признака и факторов выполняется соотношение

, при этом . (2.7)

Для анализа общего качества уравнения линейной многофакторной регрессии используют обычно множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R. Множественный коэффициент детерминации рассчитывается по формуле

(2.8)

и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.

Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения генеральным данным. Для этого проводится проверка статической значимости коэффициента детерминации R2 на основе F-критерия Фишера:

, (2.9)

где n – число наблюдений;

m – число факторов в уравнении регрессии.

Примечание. Если в уравнении регрессии свободный член а0 = 0, то числитель n-m-1 следует увеличить на 1, т.е. он будет равен n-m.

В математической статистике доказывается, что если гипотеза H0 : R2 = 0 выполняется, то величина F имеет F-распределение с k = m и l = n-m-1 числом степеней свободы, т.е.

. (2.10)

Гипотеза H0 : R2 = 0 о не значимости коэффициента детерминации R2 отвергается, если .

При значениях R2>0,7 считается, что вариация результативного признака Y обусловлена в основном влиянием включенных в регрессионную модель факторов X.

Этап 3. Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т.е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации R2 включает в себя так же и проверку значимости каждого коэффициента регрессии.

Значимость коэффициентов регрессии проверяется с помощью t-критерия Стьюдента:

, (2.11)

где – стандартное значение ошибки для коэффициента регрессии .

В математической статистике доказывается, что если гипотеза H0 : ai = 0 выполняется, то величина t имеет распределение Стьюдента с k = n-m-1 числом степеней свободы, т.е.

. (2.12)

Гипотеза H0 : ai = 0 о незначимости коэффициента регрессии отвергается, если .

Кроме того, зная значение tкр, можно найти границы доверительных интервалов для коэффициентов регрессии:

(2.13)

Для работы с регрессией открываем вкладку Сервис –> Анализ данных –> Регрессия (см. рис. 2.24.).

Рис. 2.24

В диалоговом окне Регрессия задаются следующие параметры:

1. Входной интервал по Y – вводится ссылка на ячейки, содержащие данные по результативному признаку. Диапазон должен состоять из одного столбца.

2. Входной интервал X – вводится ссылка на ячейки, содержащие факторные признаки. Максимальное число входных диапазонов (столбцов) равно 16.

3. Флажок Метки – устанавливается в активное состояние, если первая строка (столбец) во входном диапазоне содержит заголовки. Если заголовки отсутствуют, флажок следует деактивировать. В этом случае будут автоматически созданы стандартные названия для данных выходного диапазона.

4. Уровень надежности – установите данный флажок в активное состояние, если в поле, расположенном напротив флажка необходимо ввести уровень надежности отличный от уровня 95%, применяемого по умолчанию. Установленный уровень надежности используется для проверки значимости коэффициента детерминации R2 и коэффициентов регрессии аi. (Уровень надежности оставляем по умолчанию 95 %).

5. Константа-ноль – установите данный флажок в активное состояние, если требуется, чтобы линия регрессии прошла через начало координат (т.е. а0 = 0).

6. Выходной интервал/Новый рабочий лист/Новая рабочая книга.

В положении Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона. Размер выходного диапазона будет определен автоматически, и на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные.

В положении Новый рабочий лист открывается новый лист, в который начиная с ячейки А1, вставляются результаты анализа. Если необходимо задать имя открываемого нового рабочего листа, введите его имя в поле, расположенное напротив соответствующего положения переключателя.

В положении Новая рабочая книга открывается новая Книга, на первом листе которой, начиная с ячейки А1, вставляются результаты анализа.

Вывод результатов:

В первой таблице сгенерированы результаты по регрессионной статистике. Эти результаты соответствуют следующим статистическим показателям: 1. Множественный R – коэффициенту корреляции R;

2. R-квадрат – коэффициенту детерминации R2;

3. Стандартная ошибка – остаточному стандартному отклонению

; (2.14)

- Наблюдения – числу наблюдений n.

В следующей таблице сгенерированы результаты дисперсионного анализа, которые используются для проверки значимости коэффициента детерминации R2.

1. Столбец df – число степеней свободы.

Для строки Регрессия число степеней свободы определяется количеством факторных признаков m в уравнении регрессии .

Для строки Остаток число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии .

Для строки Итого число степеней свободы определяется суммой .

2. Столбец SS – сумма квадратов отклонений.

Для строки Регрессия – это сумма квадратов отклонений теоретических данных от среднего:

. (2.15)

Для строки Остаток – это сумма квадратов отклонений эмпирических данных от теоретических:

. (2.16)

Для строки Итого – это сумма квадратов отклонений эмпирических данных от среднего:

или . (2.17)

3. Столбец MS – дисперсии, рассчитываемые по формуле

. (2.18)

Для строки Регрессия – это факторная дисперсия .

Для строки Остаток – это остаточная дисперсия .

4. Столбец Значимость F – значение уровня значимости, соответствующее вычисленному значению Fp.

В последней таблице сгенерированы значения коэффициентов регрессии ai и их статические оценки.

1. Коэффициенты – значения коэффициентов ai.

2. Стандартная ошибка – стандартные ошибки коэффициентов ai. 3. t-статистика – расчетные значения t-критерия, вычисляемые по формуле

(2.19)

4. Р-значение – значения уровней значимости, соответствующие вычисленным значениям tp.

5. Нижние 95% и Верхние 95% - соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии ai.