Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
3646.doc
Скачиваний:
5
Добавлен:
13.11.2022
Размер:
2.68 Mб
Скачать

Контрольные вопросы

1) Как оцениваются зависимости качественных переменных?

2) Что необходимо определиться для того, чтобы оценить коэффициент ранговой корреляции Спирмена?

3) Что необходимо сделать для того чтобы оценить коэффициент ранговой корреляции Кендалла?

4) Какое условие необходимо выполнить для оценки коэффициента конкордации рангов Кендалла?

Лекция 16 Регрессионный анализ

16.1 Парная регрессия

Регрессионный анализ представляет собой математический аппарат, который служит для построения математической модели эксперимента. Как уже упоминалось, в планировании эксперимента чаще всего выбираются математические модели полиномиального характера. Там же отмечалось, что экспериментатора после отбора полиномиальной модели заботит поиск ее коэффициентов, что является задачей регрессионного анализа с математической точки зрения.

Поясним эту мысль на примере. Простейшая полиномиальная модель имеет вид:

(1)

Из предварительно проведенных опытов экспериментатору известны значения фактора х и результаты эксперимента y, которые при этих значениях фактора были зарегистрированы. Глядя на уравнение, становится видно, что единственное, что неизвестно экспериментатору – коэффициенты b0 и b1. Таким образом, с математической точки зрения регрессионный анализ сводится к поиску неизвестных коэффициентов b0 и b1 этой модели.

Для определения коэффициентов полиномиальных моделей используются, чаще всего, метод моментов и метод наименьших квадратов. Причем,

второй метод является самым популярным. Более того, в большинстве программных статистических пакетов для поиска коэффициентов уравнений используется именно метод наименьших квадратов.

Для того, чтобы иметь возможность контроля за программными статистическими пакетами, а также, чтобы понимать, откуда что берется, рассмотрим данный метод поиска коэффициентов регрессионной модели. Рассматривать данный метод будем на примере уравнения, приведенного выше. Пусть была проведена серия из N опытов, при этом в каждом из проведенных опытов зависимость между установленным значением фактора xi и полученным значением функции отклика yi определялась выражением:

(2)

где - отклонение вследствие каких-либо случайных причин (погрешности).

После проведения всей серии опытов общая модель будет описываться совокупностью значений yi на отдельных этапах, т.е.

При построении модели эксперимента исследователь, вполне естественно, старается свести к минимуму отклонения отдельных экспериментов, т.е. можно записать

Фактически, необходимо решить задачу по поиску минимума приведенной выше функции. Но прежде, чем заняться данной проблемой, нужно

учесть еще один момент. Отклонения ε i могут быть как положительные, так

и отрицательные. В результате простого суммирования εi может возникнуть

эффект компенсации: результат окажется либо ниже, чем есть на самом деле,

либо вообще равным нулю. Чтобы избежать этого, обычно суммируют не сами отклонения, а их квадраты. Тогда получим:

(3)

Таким образом, задача в результате всех этих математических операций сводится к задаче поиска минимума функции S(b0;b1) при неизвестных коэффициентах b0 и b1. Для этого необходимо найти частные производные функции S(b0;b1) по неизвестным b0 и b1, и решить систему уравнений относительно b0 и b1 , т.е.

(4)

Решив последнюю систему уравнений получаем:

(5)

Найти коэффициент b0 можно получить из соотношения:

(6)

Фактически, после этого можно спокойно записывать полученное уравнение регрессии. Однако на самом деле все не так просто. Любой исследователь проведет проверку значимости полученного уравнения регрессии и оценку значимости коэффициентов уравнения регрессии.

Провести оценку значимости – значит убедиться, что полученные результаты существуют для всей генеральной совокупности значений, выборка

из которых была представлена результатами эксперимента. Проще говоря, необходимо убедиться, что построенная модель реально существует, а не является следствием случайного совпадения. Сначала необходимо провести проверку значимости уравнения регрессии, поскольку, если уравнение не значимо, то оценивать значимость коэффициентов не имеет смысла. Вторым шагом проводиться проверка значимости коэффициентов уравнения регрессии. Оценку значимости уравнения регрессии и коэффициентов модели рассмотрим ниже, на примере множественной регрессии.

16.2 Множественная регрессия

Линейная модель множественной регрессии имеет вид:

Y i = 0 + 1x i 1 +2x i 2 +…+ m x i m + i , (7)

коэффициент регрессии j показывает, на какую величину в среднем изменится результативный признак Y, если переменную xj увеличить на единицу измерения, т.е. j является нормативным коэффициентом. Обычно предполагается, что случайная величина i имеет нормальный закон распределения с математическим ожиданием равным нулю и с дисперсией .

Анализ уравнения (7) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи уравнения [9]:

Y = X + , (8)

Y – это вектор зависимой переменной размерности п  1, представляющий собой п наблюдений значений уi,;

Х— матрица п наблюдений независимых переменных X1, X 2, X 3 , … X m, размерность матрицы Х равна п  (т+1);

— подлежащий оцениванию вектор неизвестных параметров размерности (т+1)  1;

— вектор случайных отклонений (возмущений) размерности п  1. Таким образом,

Y = , X = , = (9)

Уравнение (7) содержит значения неизвестных пара­метров 0,1,2,… ,m . Эти величины оцениваются на основе выборочных наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки. Модель линейной регрес­сии, в которой вместо истинных значений параметров под­ставлены их оценки (а именно такие регрессии и приме­няются на практике), имеет вид:

Y = Ха + е = y* + е, (10)

где а — вектор оценок параметров;

е — вектор «оценен­ных» отклонений регрессии, остатки регрессии е=Y - Ха;

y*- оценка значе­ний Y, равная Ха.

Формулу для вычисления параметров регрессионного уравнения с помощью метода наименьших квадратов приведем без вывода:

a = (Xт X )-1 X т Y . (11)

Одним из условий регрессионной модели является предположение о линейной независимости объясняющих переменных, т.е., решение задачи возможно лишь тогда, когда столбцы и строки матрицы ис­ходных данных линейно независимы. Линейная или близкая к ней связь между факторами называется мультиколлинеарностью и приводит к линейной зависимости нормальных уравнений, что делает вычисле­ние параметров либо невозможным, либо затрудняет содержатель­ную интерпретацию параметров модели.

Мультиколлинеарность может возникать в силу разных причин. На­пример, несколько независимых переменных могут иметь общий вре­менной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда значения одной независимой переменной являются лагированными значениями другой. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0.8. Чтобы избавиться от мультиколлинеарности, в модель включают лишь один из линейно связанных между собой факторов, причем тот, который в большей степени свя­зан с зависимой переменной.

В качестве крите­рия мультиколлинеарности может быть принято соблюдение следующих неравенств:

ryxi > rxixk , ryxk > rxixk , rxixk < 0.8

Если приведенные неравенства (или хотя бы одно из них) не выполняются, то в модель включают тот фактор, который наиболее тесно связан с Y.

16.3 Оценка качества модели регрессии

Качество модели регрессии оценивается по следующим направлениям:

  1. проверка качества всего уравнения регрессии;

  2. проверка значимости всего уравнения регрессии;

  3. проверка статистической значимости коэффициентов уравнения регрессии;

  4. проверка выполнения предпосылок МНК.

- Для оценки качества модели множественной регрессии вычисляют коэффициент множественной корреляции (индекс корреляции) R и коэффициент детерминации R2. Чем ближе к 1 значение этих характеристик, тем выше качество модели.

- Для проверки значимости модели регрессии используется F-критерий Фишера, вычисляемый по формуле:

(12)

Если расчетное значение с 1= k и 2 = (n - k - 1) степенями свободы, где k – количество факторов, включенных в модель, больше табличного при заданном уровне значимости, то модель считается значимой.

- Анализ статистической значимости отдельных коэффициентов регрессии проверяется по t-статистике пу­тем проверки гипотезы о равенстве нулю j-го параметра уравнения (кроме свободного члена):

taj = / Saj , (13)

где Saj это стандартное (среднеквадратическое) отклонение коэффициента уравнения регрессии aj.

Величина Saj представляет собой квадратный корень из произ­ведения несмещенной оценки дисперсии и j -го диагонального эле­мента матрицы, обратной матрице системы нормальных уравнений:

Saj = , (14)

где bjj - диагональный элемент матрицы (ХТ Х)-1.

Если расчетное значение t-критерия с (n - k - 1) степенями сво­боды превосходит его табличное значение при заданном уровне зна­чимости, коэффициент регрессии считается значимым. В противном случае фактор, соответствующий этому коэффициенту, следует ис­ключить из модели, при этом оставшиеся в модели параметры должны быть пересчитаны.

Проверка выполнения предпосылок МНК выполняется на основе анализа остаточной компоненты. Анализ остатков позволяет получить представление, насколько хорошо подобрана сама модель и насколько правильно выбран метод оценки коэффициентов. Согласно общим предположениям регрессионного анализа, остатки должны вести себя как независимые (в действительности, почти независимые) одинаково распределенные случайные величины. В классических методах регрессионного анализа предполагается также нормальный закон распределения остатков.

a) Исследование остатков полезно начинать с изучения их графика. 0н может показать наличие какой-то зависимости, не учтенной в модели. Скажем, при подборе простой линейной зависимости между Y и X график остатков может показать необходимость перехода к нелинейной модели (квадратичной, полиномиальной, экспоненциальной).

График остатков хорошо показывает и резко отклоня­ющиеся от модели наблюдения - выбросы. Подобным аномальным наблюдениям надо уделять особо пристальное внимание, так как их присутствие мо­жет грубо искажать значения оценок. Устранение эффектов вы­бросов может проводиться либо с помощью удаления этих точек из анализируемых данных, (эта процедура называется цензурированием), либо с помощью применения методов оценивания параметров, устойчи­вых к подобным грубым отклонениям.

Независимость остатков (отсутствие автокорреляции) проверяется с помощью критерия Дарбина – Уотсона:

(15)

Значение dw статистики близко к величине 2(1–r(1)), где r(1) - выборочная автокорреляционная функция остатков первого порядка. Таким образом, значение статистики Дарбина - Уотсона распределено в интервале от 0 до 4. Соответственно, идеальное значение статистики - 2 (автокорреляция отсутствует). Меньшие значения критерия соответствуют положительной автокорреляции остатков, большие значения - отрицательной. Статистика учитывает только автокорреляцию первого порядка. Оценки, получаемые по критерию, являются не точечными, а интервальными. Верхние (d2) и нижние (d1) критические значения, позволяющие принять или отвергнуть гипотезу об отсутствии автокорреляции, зависят от количества уровней динамического ряда и числа независимых переменных модели. Значения этих границ для уровня значимости = 0,05 даны в таблице 1.

Таблица 1 - d-статистика Дарбина – Уотсона (d1 и d2 для уровня

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]