Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

QalOGUGtk0

.pdf
Скачиваний:
2
Добавлен:
15.04.2023
Размер:
4.97 Mб
Скачать

 

x11

...

x1 j

...

x1k

 

 

 

 

 

 

 

 

... ... ...

...

...

 

X

 

...

xij

...

xik

 

xi1

 

 

... ... ...

...

...

 

 

x

...

x

...

x

 

 

n1

 

nj

 

nk

Второй способ – в виде матрицы R,размерности n n , где rij определяет степень близости i-ro объекта к j-му ( i, j 1,n )

R(rij ); i, j 1, n

2.Мера близости и матрица расстояний

В общем случае понятие однородности объектов задается либо введение правила вычисления расстояний (xi , x j ) между любой парой иссле-

дуемых объектов (x1,x2,...,xn), либо заданием некоторой функции r(xi , x j ) ,

характеризующей степень близости i-гo и j-гo объектов. Свойства (xi , x j ) :

(xi , x j ) 0 – неотрицательная определенность расстояния;

(xi , xi ) 0 – неразличимость тождественных объектов;

(xi , x j ) (x j , xi ) – симметричность расстояния;

(xi , x j ) (x j , xh ) (xi , xh ) – неравенство треугольника (длина любой стороны треугольника не больше суммы длин двух оставшихся).

Свойства r(xi , x j ) :

 

 

 

 

 

симметрии r(xi , x j ) r(x j , xi ) ;

 

 

 

 

максимального

сходства

объекта

с

самим

собой

r(xi , xi ) max r(x j , xi ) 1, при 1 i,j n,

i, j

монотонного убывания r(xi , x j ) по мере увеличения (xi , x j ) , т.е. из (xi , x j ) (xh , xg ) должно следовать неравенство r(xi , x j ) r(xh , xg ) .

0 r(xi , x j ) 1

Рассмотрим наиболее широко используемые в задачах кластерного анализа расстояния и меры близости.

Обычное Евклидово расстояние

это геометрическое расстояние в многомерном пространстве (наиболее общий случай):

71

 

k

 

E (xi , x j )

(xir x jr )2 ,

(1)

 

r 1

 

где xir , ( x jr )- величины r -ой компоненты у i-го (j-гo) объекта (r

=1,2,...,k, i,j=l,2,...,n)

Использование этого расстояния оправдано в следующих случаях:

а) наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение с ковариационной матрицей вида

2 Ek , т.е. компоненты X взаимно независимы и имеют одну и ту же дисперсию 2 , где Ek - единичная матрица;

б) компоненты вектора наблюдений X однородны по физическому смыслу и одинаково важны для классификации;

в) признаковое пространство совпадает с геометрическим пространством.

Естественное с геометрической точки зрения евклидово пространство может оказаться бессмысленным (с точки зрения содержательной интерпретации), если признаки измерены в разных единицах. Чтобы исправить положение, прибегают к нормированию каждого признака путем деления центрированной величины на среднеквадратическое отклонение и переходят от матрицы X к нормированной матрице с элементами

t xir xr ir sr

где xir - значение r-го признака у i-гo объекта xr - среднее значение r-го признака;

 

1

n

sr

(xir xr )2 - среднеквадратическое отклонение r-го призна-

 

 

n i 1

ка.

Однако эта операция может привести к нежелательным последствиям. Если кластеры хорошо разделены по одному признаку и не разделены по другому, то после нормирования дискриминирующие возможности первого признака будут уменьшены в связи с увеличением "шумового" эффекта второго.

"Взвешенное" Евклидово расстояние

 

k

BE (xi , x j )

r (xir x jr )2

 

r 1

(2)

применяется в тех случаях, когда каждой компоненте xr вектора наблюдений X удается приписать некоторый "вес" r , пропорционально

72

степени важности признака в задаче классификации. Обычно принимают 0r 1, где r=1,2,...k.

Определение "весов", как правило, связано с дополнительными исследованиями, например, организацией опроса экспертов и обработкой их мнений. Определение весов только по данным выборки может привести к ложным выводам.

Квадрат евклидова расстояния (центроидное расстояние)

k

 

KE (xi , x j ) r (xir x jr )2

(3)

r 1

используется, чтобы придать большие веса более удаленным друг от друга объектам.

Расстояние Чебышёва

CH (xi , xj ) max

xir x jr

(4)

1 r k

 

 

используется, когда необходимо определить объекты как различные, если они различаются по одному параметру

Расстояние городских кварталов (манхэттенское расстояние, Хеммингово расстояние).

k

 

H (xi , x j )

xir x jr

(5)

r 1

 

Используется как мера различия объектов, задаваемых дихотомическими признаками. Это расстояние равно числу несовпадений значений соответствующих признаков в рассматриваемых i-м и j-м объектах. В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат).

Степенное расстояние.

 

 

 

1

 

 

 

 

p

 

 

 

k

 

t

 

P (xi , x j )

 

xir x jr

 

(6)

 

 

 

 

 

 

 

 

r 1

 

 

где t и p - параметры, определяемые пользователем.

Применяется, когда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Несколько примеров вычислений могут показать, как "работает" эта мера. Параметр p ответственен за постепенное взвешивание

73

разностей по отдельным координатам, параметр t ответственен за прогрессивное взвешивание больших расстояний между объектами.

Если t = p = 2, то это расстояние совпадает с расстоянием Евклида. Если t = p = 1, то это расстояние совпадает с манхэттенским расстоя-

нием.

Если t = p = , то это расстояние совпадает с расстоянием Чебышё-

ва.

Процент несогласия.

 

 

 

 

Ко личест во

xir x jr

 

 

 

 

%

(x , x

)

; r 1, k

(7)

 

 

 

i j

 

k

 

 

 

 

 

 

 

 

 

 

 

 

Эта мера используется в тех случаях, когда данные являются категориальными.

Расстояние Махаланобиса

 

M

(x , x

)

(x x

)T T 1 (x

x

)

(8)

 

i j

 

i j

i

j

 

 

Используют в случае зависимых компонент x12,...хk вектора наблюдений Х и их различной значимости в решении вопроса классификации. Расстояние связано с ковариационной матрицей генеральной совокупности, из которой извлекаются наблюдения, и симметрической неотрицательно определенной матрицей «весовых» коэффициентов , которая чаще всего выбирается диагональной. Сходно со взвешенным евклидовым расстоянием.

Расстояния между объектами, определяемые с помощью данных метрик, заносятся в симметричную матрицу расстояний D:

0

d12

...

d1n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D d21

0

...

d2 n ; d

ij

( x , x

j

)

(9)

...

...

...

...

i

 

 

 

 

 

 

 

 

dn 2

 

 

 

 

 

 

 

dn1

...

0

 

 

 

 

 

Меры близости всех кластеров объединяются в симметричную матрицу расстояний S (в качестве мер близости обычно используют коэффициенты корреляции):

 

1

s12

...

s1n

 

 

s

1

...

s

 

 

S

21

 

 

2 n

(10)

...

...

...

...

 

 

 

 

 

sn 2

 

 

 

 

 

sn1

...

1

 

 

Процедура образования кластеров при этом аналогична процедуре с использованием метрик.

74

По матрице расстояний можно построить диаграмму «паутинка», которая создается следующим образом:

1.Центром выбирается один из объектов.

2.Пропорционально матрице расстояний располагаются остальные объекты по мере удаления от центра диаграммы.

3.Расстояния между кластерами

В ряде процедур классификации (кластер-процедур) используют понятия расстояния между группами объектов и меры близости двух групп объектов.

Пусть Si- i-я группа (класс, кластер), состоящая из ni объектов;

xi - среднее арифметическое векторных наблюдений Si группы, т.е.

"центр тяжести" i-й группы;

(Sr , Sm ) - расстояние между группами srи sm.

Наиболее употребительными расстояниями и мерами близости между классами объектов являются:

- расстояние, измеряемое по принципу “ближайшего соседа”

min (Sr , Sm )

min (xi , x j )

min dij

(11)

 

xi Sr ;x j Sm

xi Sr ;x j Sm

 

- расстояние, измеряемого по принципу "дальнего соседа"

max (Sr , Sm )

max (xi , x j )

max dij

(12)

 

xi Sr ;x j Sm

xi Sr ;x j Sm

 

- расстояние, измеряемое по центрам тяжести групп – невзвешенный центроидный метод

Ö (Sr , Sm ) (xr , xm )

(13)

-расстояние, измеряемое по центрам тяжести групп с использованием веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего – взвешенный центроидный метод.

-расстояние, измеряемое по принципу средней связи, определяется как среднее арифметическое всех попарных расстояний между представителями рассматриваемых групп – невзвешенное попарное среденее

ñð (Sr , Sm )

1

(xi , x j )

(14)

n n

 

 

 

 

r m xi Sr x j Sm

 

-расстояние, измеряемое по принципу средней связи, идентично расстоянию невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров.

-расстояние медианное - центр объединенного кластера вычисляется как медиана объединенных объектов.

75

- расстояние Варда (Уорда)- отличается от всех других, поскольку использует методы дисперсионного анализа для оценки расстояний между кластерами. Расстояние минимизирует сумму квадратов для любых двух кластеров. В целом представляется эффективным, однако стремится создавать кластеры малого размера.

Академиком А.Н.Колмогоровым было предложено "обобщенное расстояние" между классами, которое включает в себя в качестве частных случаев все рассмотренные выше виды расстояний.

Расстояния между группами элементов особенно важно в так называемых агломеративных иерархических кластер-процедурах, так как принцип работы таких алгоритмов состоит в последовательном объединении элементов, а затем и целых групп, сначала самых близких, а затем все более и более отдаленных друг от друга.

При этом расстояние между кластерами можно определить по линейной формуле

l ,(m,q) (Sl , Sm,q ) l ,m l ,q q,m | l ,m l ,q |.

(15)

где l ,m (Sl , Sm ) ; l ,q (Sl , Sq ) ; q,m (Sq , Sm )

В этом случае кластеры m и q объединяются в новый кластер и требуется рассчитать расстояние от нового кластера до кластера l. Различные

методы различаются значениями коэффициентов , ,

и .

 

Таблица 1. Коэффициенты пересчета расстояний между кла-

стерами

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Название метода

 

 

 

 

 

 

 

 

1.

Метод ближайшего со-

0.5

 

 

0.5

 

 

0

 

 

-0.5

 

седа

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2.

Полная связь

0.5

 

 

0.5

 

 

0

 

 

0.5

 

3.

Невзвешенное попарное

0.5

 

 

0.5

 

 

0

 

 

0

 

среднее

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4.

Взвешенное попарное

 

km

 

 

kq

 

0

 

 

0

 

среднее

 

km kq

 

km kq

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.

Центроидный метод

 

km

 

 

km

 

 

km kq

 

 

0

 

 

km kq

 

km kq

 

km kq

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

6.

Метод медиан

0.5

 

 

0.5

 

 

-0.25

 

 

0

 

7.

Метод Варда

 

kl km

 

 

kl kq

 

 

kl

 

 

0

 

 

kl km kq

 

kl km kq

 

kl km kq

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где kl, km, kq – количество объектов в классах l, mи qсоответственно. При выборе метрики и метода кластеризации необходимо учитывать исходную форму представления данных, которые должны быть сопоста-

76

вимы по масштабу и единицам измерения (наиболее удобными считаются денежная и относительная, или долевая, формы представления).

4. Функционалы качества разбиения

Существует большое количество различных способов разбиения заданной совокупности элементов на классы. Поэтому представляет интерес задача сравнительного анализа качества этих способов разбиения Q(S), определенного на множестве всех возможных разбиений.

Наилучшее разбиение представляет собой такое разбиение, при котором достигается экстремум выбранного функционала качества. Выбор того или иного функционала качества разбиения, как правило, опирается на эмпирические соображения. Наиболее распространенными функционалами качества разбиения являются:

сумма внутриклассовых дисперсий

 

 

p

 

 

 

 

 

Q1 2 (xi , xl ) ,

 

 

l 1 xi Sl

 

 

 

 

 

 

где Q – функционал качества разбиения;

 

 

p- число кластеров;

 

 

Sl

– кластер с номером l;

 

 

– используемая метрика;

 

 

xl

– среднее расстояние между объектами в кластере l;

 

 

xi - объект с номером i в кластере.

 

 

 

сумма попарных внутриклассовых расстояний

 

 

p

 

 

 

 

 

 

 

Q2 2 (xi , x j ) ,

 

 

 

 

l 1 xi ,x j Sl

 

 

 

 

или

 

 

 

 

 

 

 

 

2

 

p

1

 

 

i

j

 

 

n

 

 

Q

 

 

 

 

 

2

(x , x

 

)

l 1

 

l xi ,x j Sl

 

 

 

 

 

 

 

 

 

 

где Q – функционал качества разбиения;

 

 

p - число кластеров;

 

 

Sl

– кластер с номером l;

 

 

– используемая метрика;

 

 

xi - объект с номером i в кластере;

 

 

x j

- объект с номером j в кластере.

(16)

(17)

(18)

Перечисленные функционалы качества разбиения (сумма внутриклассовых дисперсий, сумма попарных внутриклассовых расстояний) ис-

77

пользуются в задачах кластерного анализа для сравнения качества процедур разбиения.

обобщенная внутриклассовая дисперсия

p

 

 

 

 

 

 

 

 

Q3 det( nlWl ) ,

 

 

 

 

(19)

l 1

 

 

 

 

 

 

 

 

где W

– выборочная ковариационная матрица класса S

l

, элементы ко-

l

 

 

 

 

 

 

 

торой определяются по формуле:

 

 

 

 

 

 

1

(xiq xq )(xim xm );

 

 

 

 

 

wqm (l)

q, m 1, k ,

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

l xi Sl

 

 

 

 

 

где xiq

- q-ая компонента многомерного наблюдения xi

 

 

xq - среднее значениеq-й компоненты, вычислено по наблюдениям l

го классаобобщенная внутриклассовая дисперсия, в которой операция

суммированияWl заменена операцией умножения:

p

 

Q4 (detWl )nl .

(20)

l 1

 

Функционалы Q3 и Q4

обычно используют при решении вопроса: не

сосредоточены ли наблюдения, разбитые на классы, в пространстве размерности, меньшей, чем k.

78

Давидюк Е.С.

Решение задач по теме «Регрессионный анализ»

1. Основные определения

Опр.Результирующая (зависимая, эндогенная) переменная y – при-

знак, характеризующий результат или эффективность функционирования анализируемой экономической системы. Ее значения формируются в процессе и внутри функционирования этой системы под воздействием ряда других переменных и факторов. В регрессионном анализе результирующая переменная выступает в роли функции, значения которой определяются факторами, выступающих в роли аргументов.

Опр. Объясняющие (предикторные, экзогенные) переменные X (x1,..., xk ) - признаки, поддающиеся регистрации, описывающие усло-

вия функционирования изучаемой реальной экономической системы. Опр. Функция y f ( X ) называется функцией регрессии y по X

Опр.Регрессионный анализ - это статистический метод исследования зависимости случайной величины y от переменных X (x1,..., xk ) , рас-

сматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения xi ,i 1,k .

Обычно предполагается, что случайная величина y имеет нормальный закон распределения с условным математическим ожиданием y f ( X ) , являющимся функцией от аргументов xi ,i 1,k , и с постоянной,

не зависящей от аргументов дисперсией 2 .

Для проведения регрессионного анализа из (к+1) -мерной генеральной совокупности ( y, x1,..., xk ) берется выборка объемом пи каждое i-ое

наблюдение (объект)характеризуется значениями переменных ( yi , xi1,..., xik ), где xij - значение j-ой переменной для i-го наблюдения ( i 1, n ), yi - зна-

чение результативного признака для i-го наблюдения.

Основными этапами построения регрессионной модели являются:

• построение системы показателей (факторов), сбор и предварительный анализ исходных данных, построение матрицы коэффициентов парной корреляции;

выбор вида модели и численная оценка ее параметров;

проверка качества модели;

оценка влияния отдельных факторов на основе модели;

прогнозирование на основе модели регрессии.

79

2. Линейная множественная регрессионная модель

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид:

yi 0 1xi1 ...

j xij ...

k xik i

(1)

где i - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию 2 .

Отметим, что модель (1) справедлива для всех i 1, n , линейна относительно неизвестных параметров 0 , 1,..., j ,..., k - и аргументов.

Как следует из (1),коэффициент регрессии j показывает, на какую величину в среднем изменится результативный признак y , если переменную x j увеличить на единицу измерения, т. е. является нормативным ко-

эффициентом.

 

В матричной форме регрессионная модель имеет вид:

 

Y X

(2)

где Y - случайный вектор - столбец размерности (nx 1) наблюдаемых значений результативного признака ( y1, y2 ,..., yn ); X - матрица размерности

[nx (k+1)] наблюдаемых значений аргументов. Элемент матрицы xij рас-

сматривается как неслучайная величина( i 1,n, j 1,k ); - вектор - стол-

бец размерности [(k+1) x 1] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели; - случайный вектор -столбец размерности (nх 1) ошибок наблюдений (остатков).

На практике рекомендуется, чтобы n превышало k не менее, чем в три раза. В модели (2):

 

1

x11

...

x1k

 

y1

 

 

 

 

 

 

 

 

 

 

 

 

 

... ...

...

...

 

 

...

 

 

X

1

x

...

x

 

;

Y

y

 

;

 

 

i1

 

ik

 

 

i

 

 

... ...

...

...

 

...

 

 

 

1

xn1

...

 

 

 

 

 

 

 

 

xnk

 

yn

 

 

0

 

 

1

 

 

 

 

 

 

 

j

 

 

 

 

 

 

 

 

 

 

k

 

 

 

Единицы в первом столбце матрицы призваны обеспечить наличие свободного члена в модели (1). Здесь предполагается, что существует переменная х0, которая во всех наблюдениях принимает значения равные 1.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии0 , 1,..., j ,..., k модели (1) или вектора в (2).

Так как в регрессионном анализе хj рассматриваются как неслучайные величины, а М( i )= 0, то согласно (1) уравнение регрессии имеет вид:

80

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]