Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 620

.pdf
Скачиваний:
5
Добавлен:
30.04.2022
Размер:
2.85 Mб
Скачать

115

10. Проверяется адекватность модели. В случае адекватности модели - окончание алгоритма. Если модель неадекватна, но возможно ее усложнение - переход к п.7, в противном случае необходима корректировка исходной выборки (увеличение ее объема, сокращение числа неточных измерений).

Схема алгоритма построения прогностических моделей приведена на рисунке 3.

Построение уравнений множественной регрессии часто производится путем так называемого пошагового (многошагового) анализа, в процессе которого производится формирование модели и с помощью статистикоматематических критериев завершается отбор факторов и уточняется форма связи каждого фактора с результативным признаком.

Определение числовых значений параметров уравнения множественной регрессии обычно производится методом наименьших квадратов, для чего строится и решается система нормальных уравнений.

Критерий метода наименьших квадратов можно записать таким обра-

зом:

S

n ( yi

yi (x))2 min

i

1

 

Для линейной множественной регрессии

Y( x1 , x2 ,..., xm) =b0+b1x1+b2x2+b3x3+...+bmxm

система нормальных уравнений такова:

b

b

 

x

b

x

2

... bm

 

xm

 

y,

 

 

 

 

0

1

1

2

 

 

 

 

 

 

 

 

 

 

 

 

b

x

 

b

x2

b

x x

2

 

... b

 

x x

m

yx ,

 

 

0

1 1

1

 

2 1

 

 

m

1

1

 

(6.15)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

.........................................................................................

b

x

m

b

x x

m

b

x

2

x

m

...

b

x2

yx

m

.

0

 

1 1

2

 

 

 

m m

 

 

Коэффициенты при xi в уравнении множественной линейной регрессии показывают, на сколько в среднем изменяется результативный признак при увеличении соответствующего фактора на единицу и при фиксированном (постоянном) значении других факторов, входящих в уравнение регрессии.

116

Формирование множества показателей, идентефицирующих состояние объекта

Xi i 1,N

Выбор контролируемых показателей

Yi i 1,M

Проведение дисперсионного анализа для оценки качества показателей Yi

Фильтрация информации

Выбор оптимального Признакового пространства

Гипотеза о нормальном

Корректировка

распределении показате-

лей Xi подтверждена ?

исходного

 

множества

Выбор вида модели

линейная неполная квадратичная квадратичная

Вычисление оценок коэффициентов уравнения регрессии

Модель

Возможно

усложнение

адекватна?

модели?

 

Вывод модели

 

Рис. 6.3. - Схема алгоритма построения регрессионных моделей

117

Величина совокупного коэффициента корреляции по значениям парных коэффициентов может быть определена следующим образом:

 

 

 

 

r10

r20

...

rm0

 

 

 

 

 

 

 

1

 

 

 

 

 

 

 

 

r10

1

r21

...

rm1

 

 

 

 

 

 

 

r20

r12

1

...

rm2

 

 

 

 

 

 

 

...

 

...

... ... ...

 

 

 

 

R2 1

 

 

r0m

r1m

r2m

...

1

 

 

.

(6.16)

 

 

 

 

 

 

1

r21 ...

rm1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

r12

1 ...

rm2

 

 

 

 

 

 

...

 

... ... ...

 

 

 

 

 

 

 

 

 

 

r1m r2m ...

1

 

 

 

 

 

 

Величина R2, называемая коэффициентом детерминации, показывает, в какой мере вариация результативного признака обусловлена влиянием при- знаков-факторов, включенных в рассматриваемое уравнение корреляционной зависимости.

Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе совокупный коэффициент корреляции к единице, тем меньше роль неучтенных в модели факторов и тем больше оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.

Иногда рассеяние точек корреляционного поля настолько велико, что нет смысла пользоваться уравнением регрессии, так как погрешность в оценке анализируемого показателя будет чрезвычайно велика. Для всей совокупности наблюдаемых значений рассчитывается средняя квадратическая ошибка уравнения регрессии Se, которая представляет собой среднее квадратическое отклонение фактических значений yi , относительно значений, рассчи-

танных по уравнению регрессии y

, т. е.

 

 

 

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

( y

i

y

i

)2

 

 

 

 

 

i

1

 

 

 

 

 

Se

 

 

 

 

,

(6.17)

 

n

 

m

 

 

 

 

 

 

 

 

 

 

 

где Se - средняя квадратическая ошибка уравнения регрессии;

118

yi - фактические значения результативного признака, полученные

по данным наблюдения;

yi - значения результативного признака, рассчитанные по уравне-

нию корреляционной связи и полученные подстановкой значений факторного признака xi в уравнение регрессии;

m - число параметров в уравнении регрессии. А также определяется стандартная ошибка:

 

n

yi

 

yi

 

Еstd.

i

1

 

 

.

(6.18)

 

n

m

 

 

 

 

 

 

Чем меньше рассеяние эмпирических точек вокруг прямой, тем меньше средняя квадратическая ошибка уравнения. Таким образом, величина Se служит показателем значимости и полезности модели, выражающей соотношение между признаками.

Проверка адекватности модели - одна из важнейших процедур регрессионного анализа, поскольку исследователь должен удостовериться в том, что практическое использование полученной модели приведет к положительным результатам. При выборе структуры модели стремятся к тому, чтобы она была как можно проще, т.е. включала как можно меньше коэффициентов. Это так называемый принцип экономичности модели.

Сокращение числа коэффициентов облегчает как процедуру оценивания, так и использование модели.

После построения модели (уравнения регрессии) ее необходимо оценить и проанализировать.

Важное место при оценке модели занимает измерение тесноты связи. Общая дисперсия

 

n

yi y 2

 

2 i

1

(6.19)

y

 

n

 

 

 

 

является мерой колеблемости фактических (эмпирических) значений признака у около их средней величины. Она характеризует общую вариацию результативного признака у, объясняемую влиянием всех факторов, от которых он зависит. Отклонения yi y объясняются тем, что сочетание значений

факторов, влияющих на у, у каждой единицы совокупности является индивидуальным, различным.

119

Кроме общей дисперсии, на основе уравнения регрессии и отклонений yi y можно вычислить средний квадрат этих отклонений, т.е. средний

квадрат отклонений теоретических значений yi , рассчитанных по уравнению регрессии, от их средней величины (средняя величина yi равна общей сред-

ней y ):

 

n

 

 

 

y y 2

 

 

2

i 1 i

.

(6.20)

y

n

 

 

 

 

 

Это - мера колеблемости теоретических значений признака около сред-

ней величины (факторная дисперсия).

 

 

На основе уравнения регрессии и отклонений yi

yi можно также вы-

числить средний квадрат этих отклонений, т. е. средний квадрат отклонений фактических значений результативного признака от теоретических его значений, полученных путем подстановки в уравнение регрессии соответствующих значений признака-фактора:

 

n

 

 

2

 

 

 

y

 

y

 

 

2 i 1

i

 

i

 

 

 

 

 

 

.

(6.21)

 

 

n

 

 

 

 

 

 

 

 

Это - мера колеблемости фактических значений у около соответствующих теоретических значений, т. е. около линии регрессии (остаточная дисперсия). В математической статистике

2

2

2.

(6.22)

y

y

 

 

Для измерения тесноты связи между у и х логично поэтому использовать отношение факторной дисперсии к общей дисперсии результативного признака. Это отношение называется теоретическим индексом детерминации

(i2):

2

i2 2y . (6.23) y

Теоретический индекс детерминации показывает, какая часть общей вариации результативного признака-фактора у объясняется признакомфактором х, входящим в соответствующее уравнение регрессии.

В качестве показателя тесноты связи используется также квадратный корень из индекса детерминации, называемый индексом корреляции (i).

120

Показатели регрессии и корреляции - параметры уравнения регрессии, индексы или коэффициенты детерминации и корреляции, исчисленные для ограниченой по объему совокупности, могут быть искажены действием случайных факторов. Поэтому нужно проверить, насколько показатели характерны для того комплекса условий. в которых находится исследуемая совокупность, не являются ли они результатом стечения случайных обстоятельств. Проверка значимости (существенности) показателей регрессии и корреляции производится с помощью t- критерия (Стьюдента), дисперсионного F-критерия (Фишера):

t

 

b

*

 

 

n

2

 

,

 

 

 

 

 

 

 

(6.24)

0

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

x

2

 

 

 

 

 

 

 

 

 

 

 

 

 

ti bi *

 

n

2

 

*

;

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(6.25)

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

F =

 

y

*

n

m

,

 

 

 

 

 

 

(6.26)

 

 

 

2

n

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где m - число параметров в уравнении регрессии.

Вычисленные по этим формулам значения t сравниваются затем с критическими их значениями при принятом уровне значимости и числе степеней свободы k=n-2. Критические значения t находятся по таблице распределения Стьюдента.

Расчетное значение F сравнивается с критическим (табличным) для принятого уровня значимости и чисел степеней свободы k1=n-1, k2=n-m. Если Fрасч>Fкр, то гипотеза об адекватности модели данным эксперимента принимается.

Оценка значимости коэффициентов регрессии с помощью критерия t часто используется для завершения отбора факторов в процессе шагового анализа. Наиболее известны две процедуры, которые реализованы в прикладных пакетах: последовательное увеличение и последовательное уменьшение группы независимых переменных. Например, последовательное уменьшение заключается в том, что после решения модели и оценки значимости всех коэффициентов регрессии из модели исключается тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент доверия t. После этого модель пересчитывается и снова производится оценка значимости всех коэффициентов регрессии. Если среди них опять окажутся незначимые, то снова исключается фактор с наименьшим коэффициентом t.

121

Процесс исключения факторов продолжается до тех пор, пока не будет получено уравнение регрессии, все коэффициенты в котором значимы. Пошаговая регрессия применяется для минимизации количества независимых переменных, входящих в исследуемую модель.

6.4. Построение формализованных моделей на основе методов кластерного анализа

Для решения задач прогнозирования и выбора адекватных управляющих воздействий предлагается использовать формализованные модели, позволяющие в понятной и доступной форме представить различные классы объектов.

Постановка задачи моделирования имеет следующий вид. Имеется исходное множество объектов

 

 

 

 

 

G

gn

 

 

 

 

 

 

 

 

(n 1, N ) .

 

 

 

 

 

 

n

 

 

 

Каждый объект характеризуется набором показателей:

 

 

 

 

 

n : gn

Pn

P1n , Pn2 ,..., Pin ,..., PnI ,

где

 

i 1, I - индекс показателя,

 

 

 

 

 

 

 

n

1, N - порядковый номер объекта.

Таким образом, каждому объекту соответствует точка в гиперпро-

странстве признаков (показателей) Pi . Каждому элементу gn множества G ставится в соответствие лингвистическая переменная ln (тип объекта).

Построение формализованных моделей заключается в разбиении мно-

жества объектов на однородные группы. Модель каждой группы

M j

 

 

 

 

 

 

 

 

j 1, J описывается следующим образом:

 

 

 

 

 

 

 

 

 

M j Zij , Lj , i

1, I

, j

1, J

,

(6.27)

где Z ij - значение параметров модели (эталон параметров),

L j - лингвистическое описание модели (класс объектов).

Для решения этой задачи предлагается два подхода: первый из них основан на прямой обработке статистической информации, второй - на классификационном методе.

122

При прямой обработке статистических данных критерием для классификации является значение лингвистической переменной ln . Число классов

(J) соответствует количеству возможных типов объектов для данной группы объектов (множества G).

Параметры модели рассчитываются следующим образом:

L j - определено однозначно для каждой группы (критерий классифи-

кации);

i 1

i

 

 

 

 

, i 1, I , j 1, J ,

Z j

 

Pn

N j

 

n G j

 

 

 

 

где Gj - множество объектов, вошедших в j-ю группу; N j - количество объектов, вошедших в j-е множество.

Данный метод хотя очень прост, но из-за большого количества рутинных операций весьма трудоемок. В результате субъективной оценки пара-

метров l значительна вероятность ошибки при разбиении исходного множе-

j

ства на группы и как следствие - вероятность неточной оценки параметров модели.

Подход, основанный на классификационном методе (кластерном анализе), лишен этих недостатков. В данном случае построение процедур классификации основано на минимаксном критерии. Суть данного метода заключается в интуитивном представлении понятия класса. Объекты объединяются в классы по следующему признаку: объекты внутри класса более «похожи» (более близки), чем объекты из различных классов.

Критерий качества кластеризации в той или иной мере отражает следующие неформальные требования:

а) внутри групп объекты должны быть тесно связаны между собой; б) объекты разных групп должны быть далеки друг от друга; в) при прочих равных условиях распределения объектов по группам

должны быть равномерными.

Узловым моментом в кластерном анализе считается выбор метрики (или меры близости объектов), от которого решающим образом зависит окончательный вариант разбиения объектов на группы при заданном алгоритме разбиения.

Для определения степени близости между объектами для различных типов данных могут быть использованы следующие показатели.

1. Для количественных шкал используется линейное расстоя-

ние

123

 

 

 

 

 

 

 

 

 

 

 

I

 

Pai Pbi

 

 

 

 

 

 

 

 

 

 

 

 

d Lab

 

,

 

 

 

 

 

 

 

 

 

 

 

i

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(6.28)

евклидово расстояние

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I

 

 

 

 

1/2

 

 

 

 

 

 

 

 

 

 

 

 

Pbi 2

 

 

 

 

 

 

 

 

d Eab

 

Pai

 

,

(6.29)

 

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

обобщенное степенное расстояние Минковского

 

 

 

 

 

 

 

 

 

I

 

 

 

1/ p

 

 

 

 

 

 

 

 

 

 

 

 

 

p

 

 

 

 

 

 

 

d Pab

Pai

 

Pbi

 

(6.30)

 

 

 

 

 

i

1

 

 

 

 

 

 

 

 

или расстояние Махаланобиса

 

 

 

 

 

 

 

 

 

 

 

 

 

~i

~i

T

W

1

~i

~i

(6.31)

 

 

 

d Mij ( Pa

Pb)

 

 

( Pa

Pb) ,

i

 

 

 

 

 

 

 

 

 

 

 

 

 

где Pa(b)

- значение i-го показателя у a(b)-го объекта,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i 1, I , a,b 1, N ,

 

 

 

 

 

 

 

 

 

~i

- вектор-столбец значений всех показателей на a(b) - ом объ-

Pa (b )

екте,

W 1 - матрица, обратная ковариационной.

2. Для качественных шкал используется коэффициент Хемминга

h

Sab / I ,

(6.32)

ab

где S ab - общее число совпадающих значений свойств (нулевых и еди-

ничных: 1 - наличие свойства, 0 - отсутствие).

Если из содержательных соображений не следует предпочтительность той или иной шкалы для каждого показателя, надо перейти к нормированным данным. При этом необходимо максимально учитывать качественную специфику показателей и выбирать соответствующий способ нормировки. Если имеется возможность, нормировку производить по величинам, не зависящим от выборки: (6.21)-(6.23).

В случае различной значимости отдельных показателей Pi (i 1, I ), следует произвести корректировку нормированных величин с учетом степени значимости каждого показателя. Степень значимости wi (i 1, I ) опреде-

ляется на основе экспертных оценок, и должна находиться в диапазоне [0..1].

124

Количество групп для классификации устанавливается равным J, где J - число различных значений лингвистической переменной lj , соответствую-

щей исходной выборке (множество G).

 

 

 

 

 

 

 

 

Классификация осуществляется следующим образом:

 

 

 

 

1.

С использованием той или иной, адекватной по отношению к сведе-

ниям метрики (6.28 – 6.32), вычисляется матрица взаимных расстояний

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

(

i, j 1, N ) между всеми информационными сообщениями g

 

G .

 

ij

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

s

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i , j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.

Выбираются объекты gk1

и gk2

, для которых выполняется условие

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sk1k 2

maxi , j

Sij (i, j

 

 

1, N ).

 

 

 

 

 

 

 

 

 

 

3.

Производится разбиение множества G на два подмножества Gk1

и

Gk 2

по правилу:

i:

 

gi

Gk1

, если Sik1

Sik 2

.

 

 

 

 

 

gi

Gk 2

, если Sik 2

Sik1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4.

Рассчитываются параметры классов Zik1

и Zik 2

, которые устанавли-

ваются равными среднему значению параметров, вошедших в каждый класс:

 

 

 

 

 

 

 

 

 

Ptt

j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

t j

 

,

j=1,2 ,

 

 

 

(6.33)

 

 

 

 

 

 

 

 

Z j

 

 

 

 

 

 

 

 

 

 

 

 

 

N j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где t j - множество объектов, вошедших в j-й класс,

 

 

 

 

 

 

 

 

 

 

N j - количество объектов, вошедших в j-й класс.

 

 

 

 

 

 

 

5.

Вычисляется вектор суммарных расстояний S {s1 ,s2 ,...,sn ,...,sN} от

каждого объекта gn

G до точек mj , имеющих параметры Zij ,

 

 

 

 

 

 

 

j

1,c 1 (c -

1 - количество сформированных классов).

 

 

 

 

 

 

 

 

6.

Выбирается объект gkc , для которого выполняется условие

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

s

 

max Si , i 1, N .

 

 

 

 

 

 

 

 

 

 

 

 

k c

 

 

i

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

7.

Производится разбиение множества G на с подмножеств Gk j

 

 

 

 

 

- расстояние от объекта gi до точки mj

 

 

( j

1,c ) по правилу

( Sik j

).

 

 

 

По формуле (6.33) рассчитываются параметры Zij ( j

 

 

 

 

8.

1,c) сформи-

рованных классов.

 

 

 

 

 

 

 

 

 

 

 

 

 

9.

Вычисления, описанные в п.5-8 выполняются до тех пор, пока не

станет истинным логическое выражение c

J .