Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

ЛР / ЛР1 / ВАД ЛР1

.pdf
Скачиваний:
19
Добавлен:
25.06.2023
Размер:
520.93 Кб
Скачать

8) Проверили все ли типы данных соответствуют действительности для этого воспользовались функцией .dtypes и таблицей 1. Сверив типы данных с описаниями столбцов явно задали необходимые форматы для дат,

срок и чисел которые по описанию должны быть целыми числами. Код и результат в соответствии с рисунком 25.

Рисунок 25 – Настройка типов данных

11

9) Создали сводную таблицу с помощью pivot_table, которая показывает среднее время (в днях) размещения объявления для квартир с разных типов (апартаменты, студия, свободная планировка и без конкретного указания) по разным регионал СПб и ЛО в соответствии с рисунком 26.

Рисунок 26 – Сводная таблица

12

10)Сделали еще две группировки с помощью group_by.

Определили количество апартаментов, студий и квартир с свободной планировкой в разных районах в соответствии с рисунком 27.

Рисунок 27 – Группировка 1

Определили среднюю площадь для квартир с разным количеством комнат в соответствии с рисунком 28.

Рисунок 28 – Группировка 2

13

11)Ссылка на Google диск с Jupyter-ноутбук

URL: https://colab.research.google.com/drive/1y8t8_kgZlpp3lyiY5jpAI5ewbVjZh6f?usp=sharing; https://drive.google.com/drive/folders/11vY_wVFvJ0t5oCud4-greNHwJN- elY8g?usp=sharing

14

Вывод

В ходе данной лабораторной работы была выполнена начальная подготовка датасета «10estate_data.csv» с данными об объявлениях продажи квартир в СПб и ЛО для этого было сделано следующее:

Устранены немногочисленные проблемы с названиями столбцов данных, а именно переведены все названия в змеиный регистр и конкретизированы для больше понимания хранящихся в них данных;

Устранены проблемы пропусков данных, которых оказалось не мало, в

основном заменой на другие значения, в частности 0 или False. Основной задачей было сохранение как можно большего количества строк данных исходного датасета, что позволит получить более честные результаты при дальнейшем анализе данных;

Устранять дубликаты не пришлось так как выполнив проверку выяснили что в дата сете их нет;

Установили столбцам типы данных, соответствующие их содержимому чтобы можно было правильно работать с данными.

По подготовленным данным сделали несколько выборок с группировками и построили сводную таблицу. Полученные результаты оказались репрезентативными и не содержали ошибочных значений, которые могли появиться в результате нахождения в выборке NaN значений или других, устраненных нами, недостатков.

Исходный дата сет содержал достаточно качественных набор данных,

что позволило сохранить большую часть из них без изменений.

15

Соседние файлы в папке ЛР1