8) Проверили все ли типы данных соответствуют действительности для этого воспользовались функцией .dtypes и таблицей 1. Сверив типы данных с описаниями столбцов явно задали необходимые форматы для дат,
срок и чисел которые по описанию должны быть целыми числами. Код и результат в соответствии с рисунком 25.
Рисунок 25 – Настройка типов данных
11
9) Создали сводную таблицу с помощью pivot_table, которая показывает среднее время (в днях) размещения объявления для квартир с разных типов (апартаменты, студия, свободная планировка и без конкретного указания) по разным регионал СПб и ЛО в соответствии с рисунком 26.
Рисунок 26 – Сводная таблица
12
10)Сделали еще две группировки с помощью group_by.
Определили количество апартаментов, студий и квартир с свободной планировкой в разных районах в соответствии с рисунком 27.
Рисунок 27 – Группировка 1
Определили среднюю площадь для квартир с разным количеством комнат в соответствии с рисунком 28.
Рисунок 28 – Группировка 2
13
11)Ссылка на Google диск с Jupyter-ноутбук
URL: https://colab.research.google.com/drive/1y8t8_kgZlpp3lyiY5jpAI5ewbVjZh6f?usp=sharing; https://drive.google.com/drive/folders/11vY_wVFvJ0t5oCud4-greNHwJN- elY8g?usp=sharing
14
Вывод
В ходе данной лабораторной работы была выполнена начальная подготовка датасета «10estate_data.csv» с данными об объявлениях продажи квартир в СПб и ЛО для этого было сделано следующее:
Устранены немногочисленные проблемы с названиями столбцов данных, а именно переведены все названия в змеиный регистр и конкретизированы для больше понимания хранящихся в них данных;
Устранены проблемы пропусков данных, которых оказалось не мало, в
основном заменой на другие значения, в частности 0 или False. Основной задачей было сохранение как можно большего количества строк данных исходного датасета, что позволит получить более честные результаты при дальнейшем анализе данных;
Устранять дубликаты не пришлось так как выполнив проверку выяснили что в дата сете их нет;
Установили столбцам типы данных, соответствующие их содержимому чтобы можно было правильно работать с данными.
По подготовленным данным сделали несколько выборок с группировками и построили сводную таблицу. Полученные результаты оказались репрезентативными и не содержали ошибочных значений, которые могли появиться в результате нахождения в выборке NaN значений или других, устраненных нами, недостатков.
Исходный дата сет содержал достаточно качественных набор данных,
что позволило сохранить большую часть из них без изменений.
15