Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
5502.pdf
Скачиваний:
10
Добавлен:
13.11.2022
Размер:
1.63 Mб
Скачать

24

Провести полный корреляционно-регрессионный анализ этой информации и сделать выводы о данном рынке недвижимости. Можно ли строить прогноз стоимости недвижимости на основе этих данных? Как повысить точность прогноза (изучите поведение остатков)?

Задание 3

Для 27 предприятий розничной торговли получены следующие данные; х – розничный товарооборот, у – издержки обращения:

 

510

560

800

465

225

390

640

405

200

 

30

33

46

31

16

25

39

26

15

 

425

570

472

250

665

650

620

380

550

 

34

37

28

19

38

36

35

24

38

 

750

660

450

563

400

553

772

450

600

 

44

36

27

34

26

38

45

29

33

Провести полный корреляционно-регрессионный анализ этой информации и спрогнозировать издержки обращения для предприятий с объемом розничного товарооборота в 500, 550, 600 и 620 усл. д .е.

Задание 4

По результатам отчетов о работе 30 малых предприятий получены следующие данные: х – среднегодовая стоимость основных производственных фондов, у – производство продукции:

х

275

281

421

435

545

332

368

486

563

369

у

212

347

376

462

512

298

386

498

612

338

х

378

493

254

291

211

463

359

561

569

454

у

347

411

192

357

241

411

362

598

476

432

х

386

458

547

530

419

415

352

333

461

589

у

453

477

569

342

419

471

298

415

267

463

Провести полный корреляционно-регрессионный анализ этой информации и спрогнозировать объемы производства продукции для предприятий со среднегодовой стоимостью основных фондов 250, 300, 350 и 400 усл. д. е.

Задание 5

Имеются данные о 20 периодических изданий: х – тираж, у – стоимость одной строки рекламы.

х

2082

1575

1285

1058

970

963

828

779

768

692

у

37,6

18,5

14,5

14,6

16,5

16,1

13,8

13,1

13,8

12,2

х

664

657

646

533

529

515

492

486

444

349

у

10,5

14,2

12,8

7,8

5,2

11,1

6,6

8,8

6

6,8

Проанализировать эти данные на основе регрессионного анализа и дать прогноз стоимости одной строки рекламы, если ожидаемый тираж составит 1600, 1700 1800 и 2000 экз. Проверить выполнимость предпосылок МНК.

Глава 2. Множественная корреляция и регрессия

Простая регрессия редко используется в практических исследованиях, т. к. экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим возникает задача исследования зависимости одной зависимой переменной от нескольких независимых переменных. В этом случае мы имеем дело с множественным регрессионным анализом, который, сочетается с множественным корреляционным анализом.

Одно из различий этих двух видов анализа заключается в том, что в корреляционном анализе переменные равноправны, а в регрессионном анализе они

25

делятся на зависимые и независимые. Такое деление в последнем случае хотя и обязательно, но довольно условно. Причинно-следственные связи устанавливаются обычно вне статистических методов исходя из профессионально-логических соображений. Статистические же методы позволяют изучать лишь зависимости между переменными.

Корреляционный анализ обычно предшествует регрессионному анализу, поэтому рассмотрим сначала его.

2.1. Множественный корреляционный анализ

2.1.1. Анализ матрицы парных коэффициентов корреляции

Такая матрица состоит из коэффициентов парных корреляций, рассчитанных для набора переменных y, x1, x2,….., xm и размещенных в виде матрицы. В дальнейшем переменную y будем называть зависимой, а остальные – независимыми. Для корреляционного анализа эти переменные равноправны, но для удобства анализа мы их будем различать.

Поскольку rxy = ryx, то корреляционная матрица симметрична относительно главной диагонали, поэтому естественно анализировать только одну из её частей (верхнюю или нижнюю относительно главной диагонали). Пусть корреляционная матрица R имеет вид:

 

 

y

x1

x2

xm

 

 

y

1

ryx

ryx

...

ryx

 

 

 

 

1

2

 

m

 

R

x1

rx1y

1

rx1x 2

... rx1xm

.

 

 

 

 

 

 

 

x m

rx m y

rxm x1

rx m x 2

...

1

 

В дальнейшем будем анализировать верхнюю часть такой матрицы.

Задача анализа такой матрицы обычно преследует две цели: выявление значимых и мультиколлинеарных независимых переменных.

Первая строка матрицы содержит коэффициенты корреляции между зависимой переменной y и независимыми переменными х1, х2, …, xm. Коэффициенты этой строки анализируют с целью выявления значимых независимых переменных. Значимость независимой переменной здесь понимается с точки зрения влияния ее на зависимую

переменную. Если проверка гипотезы Н0: yx

= 0 покажет, что коэффициент

 

i

корреляции между y и xi незначимо отличен от нуля, то это означает, что соответствующая независимая переменная незначимо влияет на зависимую переменную, т. е. незначима, и в уравнение регрессии ее включать не следует. Отметим, что подобные выводы правомерны лишь на начальном этапе анализа информации, на самом деле взаимосвязи здесь более сложные, о чем речь ниже.

Второй этап анализа матрицы парных коэффициентов корреляции заключается в выявлении мультиколлинеарности среди независимых переменных (высокой интеркорреляции). Идеальным условием реализации регрессионного анализа является независимость между собой независимых переменных. Но это практически никогда не выполняется, и уж совсем нежелательно, чтобы между независимыми переменными наблюдалась тесная корреляционная взаимосвязь. В этом случае говорят о коллинеарности переменных. Считается, что две случайные переменные коллинеарны, если коэффициент корреляции между ними не менее 0,8. Если таких переменных несколько, то говорят о мультиколлинеарности. Мультиколлинеарность для регрессионного анализа нежелательна, и, как было отмечено, ее выявление является одной из задач анализа матрицы парных коэффициентов корреляции.

26

Для этого просматривается оставшаяся часть матрицы R (кроме первой строки) и выделяются коэффициенты, по величине 0,8. Они и укажут на коллинеарные переменные. Обычно в уравнении регрессии оставляют те из значимых коллинеарных переменных, которые слабее связаны с другими зависимыми переменными. Более подробно об этом ниже.

2.1.2. Частная и множественная корреляция

Частная и множественная корреляция обычно рассматриваются при изучении совокупности многомерных измерений. Рассмотрим ее кратко на промере 3-мерного пространства.

Пусть имеем три переменные x, y, z.

Частным коэффициентом корреляции между x и y при фиксированном значении z или, другими словами, при исключении влияния на них переменной z является величина, определяемая из выражения

rxy / z

=

 

rxy

rxzryz

 

 

.

 

 

 

 

 

(1

r2 )(1

 

 

 

 

r2 )

 

 

 

 

xz

yz

Остальные частные коэффициенты корреляции определяются путем замены в приведенной формуле соответствующих индексов.

Частные коэффициенты корреляции можно рассчитать, рассматривая корреляцию не непосредственно между переменными, а между отклонениями, в которых влияние других переменных исключено.

Для трех переменных это выглядит следующим образом. Пусть х и у корреляционно зависят от z. Выразим эту зависимость в виде: xˆ = f1(z), yˆ = f2(z). Рассмотрим разности

ех = (xxˆ ) и еу = (yyˆ ). Ясно, что в них влияние переменной z исключено, поэтому

коэффициент корреляции между остатками ех и еу будет отражать связь между исходными переменными х и у с исключением влияния переменной z. Таким образом

reч e y = rxy / z .

Частные коэффициенты корреляции обладают всеми свойствами парных коэффициентов корреляции. Они служат показателями чистой линейной корреляционной связи между переменными с исключением влияния учтенных переменных.

Частная корреляция помогает обнаружить величины, которые усиливают или ослабляют связи между конкретными переменными, и, в том числе, очищает взаимосвязи между переменными от опосредованных зависимостей.

В развитие дальнейшего рассмотрения корреляции распространим понятие корреляционной связи на более чем две переменные. Тесноту линейной корреляционной связи между одной переменной и несколькими другими измеряют с помощью коэффициента множественного корреляции. Множественный коэффициент корреляции, например, между величиной z и двумя величинами x и y определяется по формуле

 

r2

r2

2r

r

r

r

zx

zy

xy

zx

zy

.

z, xy

 

1

r2

 

 

 

 

 

 

 

 

 

 

 

xy

 

 

 

Такой коэффициент заключен между нулем и единицей и равен единице, когда связь между величинами z и (x,y) является линейной функциональной, и равен нулю, если линейная связь между z и (x,y) отсутствует. Другие множественные коэффициенты корреляции определяются путем замены соответствующих индексов в приведенной формуле.

27

Коэффициент множественный корреляции можно вычислить, рассчитав коэффициент корреляции между z и zˆ , где zˆ = f(x,y) – модельные значения z, вычисленные по уравнению регрессии от х и у. Таким образом rzzˆ = rz, xy .

Понятия частного и множественного коэффициентов корреляции можно распространить на случай более трех переменных. Вычисляются они на основе матрицы парных коэффициентов корреляции.

Так, коэффициент частной корреляции между переменными xi и xj при фиксированных значениях всех остальных рассматриваемых переменных X(i,j)

рассчитывается из соотношения

ri,j.X(i,j) = –Ri,j / (RiiRjj)1/2,

а коэффициент множественной корреляции между переменной xi и всеми другими переменными X(i) , т. е. коэффициент Ri.X(i), рассчитывается из соотношения

Ri.X(i) =

1

det R

 

.

 

 

 

Rii

Здесь Rkl – алгебраическое дополнение для элемента rkl в определителе корреляционной матрицы R анализируемых признаков, а det R – определитель этой матрицы.

При определении значимости частных коэффициентов корреляции пользуются теми же методами, что и для парных коэффициентов корреляции, уменьшая число степеней свободы на число исключаемых переменных, а для множественных коэффициентов корреляции используется F-статистика:

 

R2 ( i )

 

 

n m

1

 

F =

i. X

 

 

 

 

,

1 R2

( i )

 

m

 

 

i. X

 

 

 

 

 

где m – число анализируемых переменных.

При верности гипотезы о равенстве нулю коэффициента множественной корреляции F-статистика следует распределению Фишера с числом степеней свободы числителя, равным m, и знаменателя, равным n – m – 1.

Квадрат коэффициента множественной корреляции называется коэффициентом множественной детерминации. Коэффициент множественной детерминации показывает долю вариации одной переменной, обусловленную изменением других включенных в анализ переменных.

2.2. Линейная модель множественной регрессии

Если в регрессионном анализе рассматривается пара переменных (одна зависимая, одна независимая), то говорят о парной или простой регрессии. Если независимых переменных более одной, то говорят о множественной регрессии.

2.2.1. Уравнение множественной регрессии в натуральном масштабе

Здесь будем рассматривать только линейную регрессию. Пусть рассматривается совокупность переменных y, x1, x2, … , xm, причем, будем считать, что y – зависимая переменная, а x1, x2, … , xm – независимые. Для этих переменных модель множественной линейной регрессии имеет вид:

y = α + 1 x1 + 2 x2 + … + m хm + ε,

где α, 1 , 2 , , m параметры уравнения регрессии;

ε – случайная величина, характеризующая отклонение фактических значений зависимой переменной от функции регрессии.

Уравнение множественной линейной регрессии (как оценка модели) может быть записано в виде:

y = a + b1x1 + b2x2 + …+ bmxm + е,

где а оценка свободного члена уравнения регрессии;

28

bk оценки коэффициентов регрессии при переменных xk (k = 1, m );

е – отклонения фактических значений зависимой переменной от расчетных (оценки значений случайной величины ε).

Здесь отличия ε и е такие же, как и в случае парной регрессии. Если расчетные значения обозначить через yˆ , то

yˆ = a + b1x1 + b2x2 + … + bmxm .

Тогда имеем: y = yˆ + е или е = y – yˆ .

Отметим еще раз, что а и bk (k = 1, m ) не параметры уравнения регрессии, а их

оценки, получаемые обычно на основе метода наименьших квадратов (МНК). Суть МНК для множественной регрессии, как и в случае парной регрессии, состоит в определении оценок параметров уравнения регрессии (свободного члена и коэффициентов регрессии) из условия минимизации суммы квадратов отклонений:

( yi yˆi )2 min.

Предпосылки метода наименьших квадратов в случае множественной регрессии в основном те же, что и в случае парной регрессии. Но есть и особенности.

Предпосылка о гомоскедастичности остатков в случае множественной регрессии означает их независимость от значений объясняющих переменных.

Предпосылка о неслучайности независимой переменной для парной регрессии в случае множественной регрессии трансформируется в предпосылку о детерминированности (неслучайности) независимых переменных. А это, в свою очередь, предполагает некоррелированность объясняющих переменных и остатков. Кроме того, ранг матрицы значений исходных данных для независимых переменных

должен быть максимальным и равным размерности модели (m+1). Это связано с тем, что в случае множественной регрессии оценки параметров уравнения рассчитываются с использованием обратной матрицы (ХТХ)-1, а именно,

ˆ = (XTX)-1(XTY),

где ˆ = (a,b1,b2,…,bm)T – матрица-столбец оценок параметров уравнения регрессии;

X– матрица значений независимых переменных, знак “Т” означает транспонирование матрицы (замена строк столбцами);

Yматрица-столбец значений зависимой переменной.

При выполнении предпосылок МНК оценки параметров уравнения регрессии будут “хорошими”. Как и в случае парной регрессии, предпосылка о нормальном законе распределения остатков нужна лишь для правомерности использования характеристик точности МНК-оценок.

Параллельно с оценкой параметров уравнения регрессии необходимо получить оценку дисперсии ε, а следовательно, и дисперсии у. Можно показать, что несмещенной оценкой дисперсии ε является выборочная остаточная дисперсия, определяемая по формуле

S2

 

e2

( y

yˆ)

2

.

ост.

 

 

 

 

 

n m 1

n m

1

 

 

 

 

 

Свободный член уравнения регрессии обычно не интерпретируется.

Коэффициенты уравнения множественной регрессии при каждой переменной показывают, на сколько в среднем изменится значение зависимой переменной (в своих единицах измерения), если значение соответствующей независимой переменной изменится на единицу (в своих единицах измерения) при фиксированных значениях других переменных. Но это верно лишь в том случае, если выполняется предпосылка регрессионного анализа о том, что факторные переменные не зависят между собой

29

(только в этом случае можно изменить значение одной переменной, оставив без изменения другие). В случае же существования взаимозависимости объясняющих переменных смысл коэффициентов уравнения регрессии искажается. А в случае их мультиколлинеарности коэффициенты уравнения регрессии вообще теряют какой-либо смысл.

2.2.2. Стандартизованное уравнение множественной регрессии

Коэффициенты уравнения регрессии, как и всякие абсолютные показатели, не могут быть использованы в сравнительном анализе, если единицы измерения соответствующих переменных различны. Например, если y – расходы семьи на питание, х1 – размер семьи, а х2 – общий доход семьи и мы определяем зависимость

вида

ˆ

= a + b1x1 + b2x2

и b2 > b1, то это не значит, что x2 сильнее влияет на y, чем

y

х1, т. к. b2 – это изменение расходов семьи при изменении доходов на 1 руб., а b1 – изменение расходов при изменении размера семьи на 1 человека.

Сопоставимость коэффициентов уравнения регрессии достигается при рассмотрении стандартизованного уравнения регрессии:

y0 = 1x10 + 2x20 + … + mxm0 + е ,

где y0 и x0k – стандартизованные значения переменных y и xk:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

0

y

y

,

x

0

 

x x k

 

,

 

 

 

 

Sy

 

k

Sx

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

Sy и S x

k

– стандартные отклонения переменных y и xk,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

k (k=1, n ) – -коэффициенты уравнения регрессии (но не параметры уравнения

регрессии,

 

в отличие

от

приведенных

ранее обозначений). -коэффициенты

показывают, на какую часть своего стандартного отклонения (Sy) изменится зависимая

переменная

y, если независимая

переменная

xk изменится на величину своего

стандартного

отклонения (S x

k

).

Оценки параметров уравнения регрессии в

 

 

 

 

 

 

 

 

абсолютных показателях (bk) и β-коэффициенты связаны соотношением

 

 

 

 

βk

bk

Sx

k

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Sy

-коэффициенты уравнения регрессии в стандартизованном масштабе создают реальное представление о воздействии независимых переменных на моделируемый показатель. Если величина -коэффициента для какой-либо переменной превышает значение соответствующего -коэффициента для другой переменной, то влияние первой переменной на изменение результативного показателя следует признать более существенным.

Для простой регрессии -коэффициент совпадает с коэффициентом парной корреляции, что позволяет придать коэффициенту парной корреляции смысловое значение.

При анализе воздействия показателей, включенных в уравнение регрессии, на моделируемый признак наравне с -коэффициентами используются также коэффициенты эластичности. Например, показатель средней эластичности рассчитывается по формуле

Эk

bk

 

xk

 

 

 

 

 

 

 

y

 

 

 

 

 

 

и показывает, на сколько процентов в среднем изменится зависимая переменная, если среднее значение соответствующей независимой переменной изменится на один процент (в случае независимости объясняющих переменных).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]