Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ИАД_ЛР1_Дашин

.docx
Скачиваний:
0
Добавлен:
26.01.2024
Размер:
506.92 Кб
Скачать

Федеральное государственное бюджетное образовательное учреждение высшего образования. «Национально исследовательский университет

«Московский энергетический институт»

Кафедра Управления и интеллектуальных технологий

Лабораторная работа №1

ПОСТРОЕНИЕ И АНАЛИЗ РЕГРЕССИОННЫХ ЗАВИСИМОСТЕЙ

Выполнил:

Дашин И.Н.

А-02-20

Москва 2022 г.

  1. Импортируем датасет ирисы Фишера:

Проведем разведочный анализ данных датасета ирисы Фишера:

Построим диаграмму Тьюки по всем признакам

Видим, что среди значений признаков выделяются значения sepal width, так как они имеют выбросы.

Проанализируем корреляционные зависимости между исследуемыми переменными:

Для этого построим тепловые карты для парных и множественных коэффициентов корреляции:

Видим, что наилучшая линейная связь наблюдается у ширины лепестка (Petal Width) с его длинной (Petal Length) – 0.96, а так же с длинной чашелистика (Sepal Length) – 0.82.

При построении тепловой карты с частными коэффициентами корреляции видим, что при фиксации остальных переменных линейная связь между длинной лепестка (Petal Width) с длинной чашелистика (Sepal Length) становится не сильно выраженной и отрицательной, а значит до этого корреляция возникала от воздействия факторов которые теперь зафиксированы.

Проверим предположение о распределении признаков по нормальному закону критерием Колмогорова-Смирнова:

sepal length (cm) : KstestResult(statistic=0.999991460094529, pvalue=0.0)

sepal width (cm) : KstestResult(statistic=0.9794298858198347, pvalue=1.9343513094431768e-253)

petal length (cm) : KstestResult(statistic=0.8765328487477231, pvalue=1.4044248603466367e-136)

petal width (cm) : KstestResult(statistic=0.5459263761057697, pvalue=1.8764992713715694e-42)

Значения статистик намного меньше уровня значимости, значит мы можем предположить,

что значения всех признаков не подчиняются нормальному закону распределения.

  1. Определим входные и выходные переменные:

Проанализируем зависимость длинны от ширины лепестка. Ширина лепестка (Petal Length ) – входная переменная, длинна лепестка (Petal Length ) – выходная.

Уравнение парной регрессии

Коэффициент детерминации: 0.9271098389904927

Скорректированный коэффициент детерминации: 0.924167399602457

Стандартная ошибка: 0.36579694412763775

B0: 1.0835580328505112

B1: [2.2299405]

Множественная регрессия:

В качестве выходного параметра выступает длинна лепестка, в качестве входных – остальные три признака.

Коэффициент детерминации: 0.9485236349446816

Скорректированный коэффициент детерминации: 0.948521600504265

Стандартная ошибка: 0.31369294102123063

B0: -1.5071383768459286

B1,b2,b3: [1.74810286 0.27112781 0.27112781]

Проверка гипотезы о нормальном распределении остатков:

Значения критерия Дурбина-Уотсона = 1.3609804610262028

KstestResult(statistic=0.23522102323512725, pvalue=1.3722091847744725e-07)

Остатки не подчиняются нормальному закону распределения. Значение критерия Дурбина-Уотсона < 2. Это говорит о наличии ненулевой связи между остатками. Эта информация говорит нам о том, что возможно для нашей модели не выполняются предпосылки регрессионного анализа и это стоит учитывать при интерпретации полученных результатов.

5. Разделив выборку на тестовую и обучающую в соотношении 1:1 получим предсказание переменной.

Коэффициент детерминации: 0.8582150221196795

Стандартная ошибка: 0.26679680989339244

СКО: 0.3250530447035454

KstestResult(statistic=0.2694499056604559, pvalue=2.672187743568187e-05)

(остатки так же не подчиняются нормальному распределению)

Удалив выбросы из выборки получаем новый фрейм данных:

Коэффициент детерминации: 0.8571094796835401

Стандартная ошибка: 0.25930623004608877

СКО: 0.3279503306135595

KstestResult(statistic=0.27499944699578704, pvalue=2.268497665387463e-05)

(остатки так же не подчиняются нормальному распределению)

График остатков для множественной регрессии без выбросов

Удалив выбросы, мы получили незначительное снижение коэффициента детерминации, это может быть связано с тем, что наша выборка имело очень мало выбросов и их устранение не принесло огромный вклад в построение множественной регрессии.

8. Проведем исследования для датасета - Factor.sta.

Построенная по переменным тепловая карта (парные коэффициенты корреляции)

Из тепловой карты можем сделать вывод что целесообразно будет строить регрессию с переменными, которые имеют наибольший парный коэффициент корреляции.

Например: work_4 имеет такие с work_5, work_9, work_10

Соседние файлы в предмете Интеллектуальный Анализ Данных