Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЛР / ЛР2 / ВАД ЛР2

.pdf
Скачиваний:
15
Добавлен:
25.06.2023
Размер:
1.01 Mб
Скачать

4) Построили точечную диаграмму (матрицу диаграмм рассеяния) в

соответствии с рисунком 12.

Рисунок 12 – Построение матрицы рассеяния

11

Выводы: выполнили анализ полученной диаграммы и выявили явную зависимость только для следующих параметров:

Уровень образования (education_level) и доход (total_income) чем выше уровень образования, тем выше доход зависимость линейная в соответствии с рисунком 13.

Рисунок 13 – Взаимосвязь уровня образования и дохода Так же было замечено что:

Средний доход в возрасте от 25 до 60 почти одинаковый в соответствии с

рисунком 14;

Рисунок 14 – Взаимосвязь дохода и возраста

12

У людей в возрасте больше 55 количество задолженностей уменьшается по

сравнению с возрастом от 25 до 55, так количество людей с задолженность одинаково в соответствии с рисунком 15;

Рисунок 15 – Взаимосвязь возраста и наличия долга

Чем больше человек зарабатывает, тем меньше у шанса что он не вернет заемные деньги в соответствии с рисунком 16;

Рисунок 16 – Взаимосвязь дохода и наличия долга

13

5) Исследовали взаимосвязь между переменными с помощью оценки коэффициента корреляции и ковариации.

Оценку ковариации и корреляции провели с помощью фикций нахождения ковариации – pandas.DataFrame.cov() и коэффициента корреляции Пирсона – pandas.DataFrame.corr() в соответствии с рисунком 17.

Рисунок 17 – Коэффициент корреляции Пирсона

Вывод: Вычислив коэффициенты ковариации заметили, что взаимосвязь между величинами присутствует, а для того, чтобы определить ее силу произвели расчет корреляции Пирсона.

Коэффициенты корреляции Пирсона показали очень слабую взаимосвязь между всеми параметрами попарно, это означает что либо связи имеют достаточно малую силу,

либо они выражаются каким-то более сложным взаимодействием из белее чем двух параметров.

14

6) Построили Seaborn.heatmap (тепловую карту корреляции) в соответствии с

рисунком 18.

Вывод: Построенная тепловая карта корреляции явно демонстрирует что сильных зависимостей между какими-то парами величин нет.

Самую сильную взаимосвязь показывает пара количество детей с возрастом,

однако и она не превышает 0,31, что является достаточно низким показателем. Задними идут пары доход с уровнем образования и семейный статус с количеством детей, эти пары вполне логичны и были нами замечены еще при анализе матрицы диаграмм рассеяния. Остальные пары по силе взаимосвязи не дотягивают даже до 0,1 по модулю,

что может является показателем независимости этих величин.

7) Выполнили интерпретацию результатов корреляции и ковариации, отвечая на вопросы о наличии (отсутствии) линейной взаимосвязи между переменными.

Резюмируя выводы сделанные в пунктах 5 и 6, отметим, что линейная связь хотя и слабая наблюдается между следующими парами значений: количество детей с возрастом; доход с уровнем образования; семейный статус с количеством детей.

Остальные пары по силе взаимосвязи можно считать линейно независимыми.

15

8) Есть ли в вашем наборе данных столбец, который является целевым признаком? Какие факторы больше всего влияют на целевой признак?

Для нашей предметной области целевыми являются два признака это уровень дохода и наличие задолженности, между собой они показывают низкие показатели ковариации (-364.741) и корреляции (-0,014).

На наши целевые признаки больше всего влияют следующие факторы для уровня дохода это – уровень образования, а для наличия задолженности – количество детей.

9)Ссылка на Google диск с Jupyter-ноутбук

URL: https://colab.research.google.com/drive/1uhJg_OfDMlSz8DpaM7A4B0KWMWNwY9X?usp=sharing; https://drive.google.com/drive/folders/1hyUxPtE1mWoVnpmFmRF5RTgE4KmJ9w0p?usp=shar ing.

16

Вывод

Входе данной лабораторной работы мы подготовили датасет с информацией о клиентах банка, подававших заявку на кредит, и провели анализ взаимодействия параметров в нем.

Вдатасете было выявлено много различных ошибок, которые нам пришлось исправлять чтобы привести данные в анализа пригодный вид. Сначала были устранены проблемы с названиями столбцов приведением в змеиный регистр и переименованием для лучшего отражения содержимого. Затем были исправлены проблемы пропусков данных,

какие-то данные были заполнены с применением простейшей кластеризации, какие-то пришлось удалить так как в данных не только присутствовали пропуски, но и значения не имели смысла. Привели типы данных столбцов к подходящим по смыслу значениям и удалили дубликаты. Последним этапом подготовки данных была проверка мелких ошибок при заполнении данных клиентами банка, исправили несколько опечаток и значений,

которые могли попасть по ошибки при выгрузке.

На подготовленном датасете провели анализ взаимосвязи величин. Для этого были построены матрица диаграмм рассеяния, таблицы ковариации и корреляции, и тепловая карта корреляции. Анализ с применением перечисленных инструментов показал, что большой взаимосвязи между величинами нет. Наивысшие показатели оказались у пар:

количество детей с возрастом; доход с уровнем образования; семейный статус с количеством детей. Целевыми признаками для датасета являются уровень дохода и наличие задолженности, больше всего на нах влияют факторы уровень образования и количество детей соответственно. К аналогичным выводам можно было бы прийти и логическими измышлениями, но благодаря анализу мы получили численное подтверждение наших предположений.

17

Соседние файлы в папке ЛР2