Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Методическое пособие 187

.pdf
Скачиваний:
3
Добавлен:
30.04.2022
Размер:
542.15 Кб
Скачать

ФГБОУ ВО "Воронежский государственный технический университет"

Кафедра высшей математики и физико-математического моделирования

МЕТОДИЧЕСКИЕ УКАЗАНИЯ

к выполнению курсовой работы по дисциплине «Математика» для студентов направления 27.03.05 «Инноватика»

Воронеж 2016

Составитель: канд. физ.– мат. наук В.В. Ломакин

УДК 519.2

Методические указания к выполнению курсовой работы по дисциплине «Математика» для студентов направления 27.03.05 «Инноватика» / ФГБОУ ВО «Воронежский государственный технический университет»; сост. В.В. Ломакин. Воронеж, 2016. 21 с.

Методические указания составлены в целях оказания помощи студентам при выполнении ими курсовой работы по математике, которая содержит теоретическую и практическую части, связанные с разделом «Корреляционно-регрессионный анализ». Даны подробные рекомендации по проведению расчетов, варианты теоретического и практического заданий. Приведены детальные требования к оформлению курсовой работы и график работы над ней.

Методические указания подготовлены в электронном виде и содержатся в файле Мет.указ.курс.раб(ИН).pdf.

Табл.2. Библиогр.: 6 назв.

Рецензент канд. техн. наук, доц. В.В. Пешков

Ответственный за выпуск зав. кафедрой д-р физ.-мат. наук, проф. И.Л. Батаронов

Издается по решению редакционно-издательского совета Воронежского государственного технического университета

ФГБОУ ВО «Воронежский государственный технический университет», 2016

1. ЦЕЛИ И ЗАДАЧИ КУРСОВОЙ РАБОТЫ

Методические указания составлены в соответствии с рабочими программами по специальности "Математика" для студентов направления 27.03.05 «Инноватика».

Курсовая работа предусматривает более подробное изучение раздела «Корреляци-

онно-регрессионный анализ» и практики его применения при исследовании статистиче-

ских данных, относящихся к социально-экономическим явлениям и процессам.

Целями курсовой работы являются:

развитие у студентов логического и алгоритмического мышления;

углубление навыков самостоятельной работы с математической литературой;

овладение методами корреляционно-регрессионного анализа, используемыми при анализе статистических данных.

Для достижения этих целей ставятся задачи:

– собрать и проанализировать литературные данные, относящиеся к рассматривае-

мому разделу корреляционно-регрессионного анализа;

написать реферативный обзор этого раздела;

обработать предлагаемые статистические данные, применяя методы корреляци-

онно-регрессионного анализа.

При написании курсовой работы студенту необходимо соблюдать следующие ос-

новные требования:

-достаточно высокий теоретический уровень;

-творческий подход к изучаемому материалу;

-обоснованное применение статистических методов исследования для обработки и анализа статистических данных;

-всесторонний анализ выводов, полученных в результате обработки этих данных;

– правильное научное оформление курсовой работы.

2. ЭТАПЫ ПОДГОТОВКИ КУРСОВОЙ РАБОТЫ

На первом этапе выполнения курсовой работы необходимо изучить имеющуюся учебную и научную литературу по предложенной теме (см. Приложение 1.) и составить план для теоретической части курсовой работы.

На втором этапе необходимо в соответствии с планом написать реферат (15-20

стр.) по рассматриваемой теме и поместить его в первый раздел.

На третьем этапе следует провести корреляционно-регрессионный анализ пред-

ложенных данных (см. Приложение 2.) и записать полученные результаты с выводами во втором разделе.

3. СОДЕРЖАНИЕ КУРСОВОЙ РАБОТЫ

Во введении обосновывается актуальность выбранной темы, формулируются цель и задачи исследования, называется объект и предмет курсовой работы. Объем введения не должен превышать 2-х страниц.

В первом разделе на основании изученных литературных источников ясно и дос-

тупно излагается рассматриваемая тема, освещаются основные понятия этой темы и ее практическое значение (с привлечением конкретных примеров). При этом широко исполь-

зуются учебники, специальные монографии, учебные пособия и методические рекоменда-

ции, материалы периодических экономических изданий. Список литературы должен со-

держать не менее 15 источников, включая ссылки на Интернет-сайты.

При написании данного раздела обязательны ссылки в квадратных скобках на ис-

пользуемые литературные источники. В конце реферата необходимо сформулировать чет-

кие обобщающие выводы об изученной теме и ее практической значимости. Также хоро-

шо бы привести предложения по устранению недостатков и совершенствованию предмета рассмотрения.

Во втором разделе на основании имеющихся данных определяются параметры линейной парной регрессии, производится проверка статистической значимости этих па-

раметров и проводятся их интервальные оценки.

Действия с числовыми данными лучше проводить в последовательности, представ-

ленной в приведенных ниже рекомендациях. При оформлении практической части курсо-

вой работы не следует повторять полностью эти подробные рекомендации, необходимо излагать текст самостоятельно.

2

4. РЕКОМЕНДАЦИИ ПО ВЫПОЛНЕНИЮ ПРАКТИЧЕСКОГО ЗАДАНИЯ КУРСОВОЙ РАБОТЫ

Провести корреляционно-регрессионный анализ следующих данных:

 

 

xi

161

 

183

149

 

119

 

230

 

201

 

278

 

219

 

180

 

185

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

790

 

570

860

 

1010

 

520

 

650

 

570

 

620

 

730

 

730

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

139

 

129

 

91

 

 

132

 

 

160

 

 

290

 

 

160

 

 

231

 

 

316

 

 

213

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yi

 

690

 

1060

 

1860

 

840

 

 

800

 

 

490

 

 

800

 

 

510

 

 

450

 

 

540

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xi

 

138

 

139

 

180

 

230

 

180

 

210

 

290

 

270

 

210

 

150

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

yj

 

820

 

690

 

 

580

 

510

 

740

 

630

 

480

 

560

 

550

 

810

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4.1. Графический метод и линейная регрессия.

Графический метод применяют для наглядного изображения формы связи между изучаемыми признаками генеральной совокупности. Для этого в прямоугольной системе координат необходимо построить график, откладывая по оси ординат индивидуальные значения результативного признака Y, а по оси абсцисс – индивидуальные значения фак-

торного (объясняющего) признака X. Совокупность получающихся точек называется по-

лем корреляции или корреляционным полем [1]. На основании полученного графика вы-

двигается гипотеза (для генеральной совокупности) о том, что связь между всеми возмож-

ными значениями признаков X и Y носит линейный характер: Y X . Этой связи со-

ответствует выборочное уравнение линейной парной регрессии (см. [1] – [5])

y

y

x bx a ,

(1)

где a и b – статистические оценки параметров α и β, – случайная ошибка (отклонение,

возмущение).

Так как отклонения для каждого конкретного i–го наблюдения случайны и их зна-

чения в выборке неизвестны, то, как правило, считается, что – случайная величина с не-

зависимыми значениями и характеристиками M( ) 0, D 2

3

Smin S a,b y2 1 rxy2 .

Оценки а и b параметров α и β проводятся по результатам выборки xi; yi , i 1,2,..., n с помощью метода наименьших квадратов (МНК).

Формально критерий МНК можно записать так:

n

n

S a,b yi

y

xi 2

yi a bxi 2 min.

i 1

i 1

Из необходимых условий этого минимума S a 0, S b 0

уравнений, определяющая искомые оценки а и b:

a bx y,

ax bx2 xy,

где использованы обозначения

(2)

следует система

(3)

n

 

xk yl 1 n xik yil .

(4)

i 1

Из (3) следует, что оценки b и а равны

 

 

 

 

 

 

 

b

xy

 

x

 

y

 

,

 

 

 

 

 

 

 

 

a

y

bx

.

 

 

 

 

 

(5)

 

 

 

 

 

 

 

 

 

 

 

x

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

С учетом (2) далее можно записать

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

 

 

 

 

2

 

 

 

 

 

2

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

xy

x

y

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

y

,

 

 

x

x

,

r

 

, b r

,

(6)

y

 

 

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

 

 

y

 

 

xy

 

x

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

(7)

Выборочное уравнение линейной парной регрессии в этих обозначениях имеет вид:

y

x

y

 

rxy

 

y

x

x

.

(8)

 

 

 

 

 

 

 

 

 

x

 

 

 

 

 

 

 

 

 

4.2. Расчет параметров уравнения линейной парной регрессии.

С помощью данных, приведенных в исходной таблице, и формулы (4) проводятся

соответствующие расчеты:

 

 

1

n

 

5763

 

x

 

xi

 

192,1;

n

 

 

 

i 1

30

 

 

 

1

n

 

21460

 

y

 

yj

 

715,33(3);

n

 

 

 

j 1

30

 

 

 

1

n

 

3800360

 

xy

 

xi yi

 

126678,66(6).

 

 

 

 

n i 1

30

 

4

Выборочные дисперсии и среднеквадратические отклонения согласно (6) равны

 

 

 

 

 

 

 

 

 

 

 

 

1

n

 

 

 

 

 

 

 

1200261

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2

xi2

x

2

 

 

192,1 2

3106,29,

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

 

 

 

 

n i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

n

 

 

 

 

 

 

17408000

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y2

 

y2j

 

y

2

715,33 2

68565,38,

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

j 1

 

 

 

 

 

 

 

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x2

 

 

 

 

55,73;

 

y

 

y2

 

 

261,85.

 

x

 

 

 

 

3106,29

 

 

 

68564,89

Для выборочной ковариации и выборочного коэффициента корреляции имеем

cov x, y xy x y 126678,67 192,1 715,33 10736,22,

r

 

 

xy

x

 

y

 

10736,22

0,7357.

 

 

 

 

 

 

 

xy

 

 

x

y

55,73 261,85

 

Коэффициент корреляции принимает значения от –1 до +1. Связи между признака-

ми могут быть слабыми и высокими (тесными). Эти критерии оцениваются следующим образом [4]:

Таблица 1. Шкала Чеддога

0,1<

 

rxy

 

<0,3

0,3<

 

rxy

 

<0,5

0,5<

 

rxy

 

<0,7

0,7<

 

rxy

 

<0,9

0,9<

 

rxy

 

<1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

слабая

умеренная

заметная

высокая

весьма высокая

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Связь между признаками также характеризует и знак коэффициента регрессии b

(или rxy ): если b 0, то связь между признаком Y и фактором X прямая, иначе – обратная.

В нашем примере rxy 0,7357 и связь между Y и X высокая и обратная.

Уравнение линейной парной регрессии для исходных данных имеет вид

 

 

 

 

 

y

 

 

 

 

 

x 192,1

y x rxy

x x y 0,7357

 

 

 

 

261,85 715,33 3,457x 1379,42

 

 

 

 

x

55,73

 

 

 

 

 

 

 

 

 

 

или

y

x a bx 1379,42 3,46x.

(9)

5

Коэффициентам уравнения линейной регрессии можно придать экономический смысл. Коэффициент b = –3,46 показывает среднее изменение результативного показателя

(в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением x на 1 единицу y понижается в среднем на –3,46. Коэффициент a = 1379,33 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко к выборочным значениям. Если же х=0

находится далеко от выборочных значений х, то буквальная интерпретация может привес-

ти к неверным результатам, и даже, если линия регрессии довольно точно описывает зна-

чения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.

Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого на-

блюдения.

4.3. Ошибка аппроксимации. Дисперсионный анализ.

Необходимо оценить качество уравнения линейной регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации (среднее отклонение рас-

четных значений от фактических) равна

 

 

1

n

yi

y

xi

1

n

ei

 

 

 

 

4,42

 

 

 

 

 

 

 

100%,

A

100% 14,72%.

A

 

 

 

 

 

 

 

100%

 

 

 

 

n

 

y

i

 

n

 

y

30

 

 

 

 

i 1

 

 

 

 

 

i 1

i

 

 

 

 

 

 

Поскольку ошибка меньше 15%, то (9) можно использовать в качестве выборочного ли-

нейного уравнения парной регрессии.

Задача дисперсионного анализа состоит в анализе дисперсии зависимой перемен-

ной c использованием тождества ( [2] – [5])

 

 

 

 

 

n

 

n

 

 

 

n

 

 

 

 

 

 

 

yi

y

2 yi

 

y

xi 2

 

y

xi

y

2 .

 

 

 

 

 

 

 

i 1

 

i 1

 

 

 

i 1

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

n

 

n

Здесь

yi

y

2

n

y2 – общая сумма

квадратов отклонений, yi

y

xi 2

ei2

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

i 1

 

i 1

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

сумма

квадратов

отклонений,

обусловленная регрессией;

y

xi

y

2

– остаточная

i 1

сумма квадратов отклонений.

Степень близости связи признака Y и фактора X к линейной связи характеризует-

ся коэффициентом парной корреляции rxy. Для любой формы корреляционной зависимо-

сти теснота связи определяется с помощью выборочного корреляционного отношения [5]

6

 

n

 

n

 

R 1

yi

y

xi 2

 

 

y

xi

y

2

.

i 1

i 1

 

 

 

n

y2

 

 

 

n

y2

 

При линейной регрессии Y на X выборочное корреляционное отношение равно

n

rxy , т.к. согласно (2) и (7) yi y xi 2 n y2 1 rxy2 .

i 1

Квадрат выборочного корреляционного отношения называется коэффициентом детерминации, который показывает долю вариации результативного признака, объяснен-

ную вариацией факторного признака. Чаще всего, давая интерпретацию коэффициента детерминации, его выражают в процентах.

В рассматриваемом случае R2 rxy2 0,73572 0,5413,, т.е. в 54.13 % случаев изме-

нения х приводят к изменению y. Другими словами, точность подбора уравнения линейной парной регрессии – средняя. Остальные 45.87 % изменения Y объясняются факторами,

не учтенными в модели.

4.4. Интервальная оценка для коэффициента корреляции.

Доверительный интервал для коэффициента корреляции rxy определяется форму-

лой ([1], [2])

 

 

 

 

 

 

 

1

r

2

 

 

 

 

 

1

r

2

 

 

 

 

 

 

 

 

rxy tкрит

 

 

xy

;

rxy tкрит

 

 

xy

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

В нашем случае имеем

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 0,74

2

 

 

1 0,74 2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

или

(–0,907; –0,.564) .

0,74 2,048

 

 

 

 

; 0,74 2,048

 

 

 

 

30

 

 

30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Согласно нашим данным (см. [3]) t

набл

 

 

r

 

 

 

n 2

0,74

28

5,82.

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

 

1

rxy2

 

1 0,74 2

 

 

 

 

 

 

 

 

 

 

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=28 находим tкрит(n–m–1;α/2) = tкрит(28; 0.025) = 2.048, где m = 1 - количество объясняющих перемен-

ных. Поскольку в нашем случае tнабл > tкрит, то отклоняем гипотезу о равенстве нулю ко-

эффициента корреляции. Другими словами, коэффициент корреляции статистически значим.

4.5. Интервальные оценки параметров уравнения регрессии.

Несмещенной оценкой дисперсии возмущений является величина

2

 

yi

y

xi 2

 

ei2

943589,84

 

Sy

 

n m 1

 

 

 

 

33699,64.

 

28

 

 

 

n m 1

 

7

S2y = 33699,64 – необъясненная дисперсия (мера разброса зависимой переменной вокруг

линии регрессии); Sy Sy2 33699,64 183,57– стандартная ошибка оценки (стан-

дартная ошибка регрессии).

Для стандартного отклонения Sa случайной величины a имеем

 

 

 

 

xi2

 

 

 

 

 

 

 

 

 

1200261

 

S

a

S

y

i

183,57

120,28.

n

 

 

 

 

x

 

30 55,73

В свою очередь, стандартное отклонение Sb случайной величины b равно

Sb

 

Sy

 

 

183,57

 

0,6.

 

 

 

 

 

 

 

 

n

x

30 55,73

 

 

 

 

 

Определим доверительные интервалы коэффициентов регрессии, которые с надеж-

ность 95% будут следующими (см. [1], [2], [4]):

 

a tкритSa; a tкритSa и (1132,98;

1625,67),

b tкритSb;b tкритSb и (–4,69;

–2,22)

С вероятностью 95% можно утверждать, что значения параметров и бу-

дут лежать в найденных интервалах.

4.6. Проверка гипотез относительно уравнения линейной парной регрессии.

F – статистика

Проверка значимости модели линейной регрессии проводится с использованием

F–критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии ос-

таточной последовательности для данной модели.

Если расчетное значение Fтабл с k1=m и k2=n-m-1 степенями свободы больше фак-

тического значения F при заданном уровне значимости, то модель считается значимой,

где m – число факторов в модели.

Оценка статистической значимости линейной регрессии производится по следую-

щему алгоритму:

1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически не-

значимо: H0: R2=0 на уровне значимости α.

2. Далее определяется фактическое значение F– критерия [4]:

F

R2

 

n m 1

F

0,542

 

30 1 1

 

 

 

,

 

 

 

11,53,

 

 

 

1 0,542

1

1 R2

 

m

 

 

где учтено, что m=1 для парной регрессии.

8