Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дашин_ЛБ4.pptx
Скачиваний:
1
Добавлен:
26.01.2024
Размер:
1.01 Mб
Скачать

Лабораторная работа № 4

ОБРАБОТКА И АНАЛИЗ РЕАЛЬНЫХ МАССИВОВ ДАННЫХ

Набор данных о пассажирах Титаника – Titanic

А-01-20 Дашин Илья

Шаги работы

1.Описание выборки

2.Разведочный анализ

3.Восполнение недостающих данных с помощью методов анализа данных

4.Конструирование признаков

5.Прогнозирование

Описание выборкиНабор данных о пассажирах Титаника – Titanic

Датасет Титаник содержит данные пассажиров корабля:

Признак Survived показывает, выжил ли пассажир или умер.

Pclass показывает класс, которым следовал пассажир – 1, 2 или 3.

• Name, Sex, Age – соответственно имя, пол и возраст пассажира

• SibSp - это число братьев, сестер или супругов на борту у человека.

Parch - количество родителей или детей, с которыми путешествовал пассажир.

• Ticket – номер билета

• Fare – транспортные расходы

Cabin – каюта пассажира

• Embarked - информация о порте посадки пассажира. Есть три возможных значения для Embarked -  Саутгемптон, Шербург и Куинстаун.

Разведочный анализ

RangeIndex: 891 entries, 0 to 890

Data columns (total 12 columns):

#

Column

 

Non-Null Count Dtype

---

------

-------------- -----

 

int64

0

PassengerId 891 non-null

1

Survived

891 non-null

 

int64

2

Pclass

891 non-null

int64

3

Name

 

891 non-null

 

object

4

Sex

891 non-null

object

5

Age

714 non-null

float64

6

SibSp

 

891 non-null

int64

7

Parch

891 non-null

int64

8

Ticket

891 non-null

object

9

Fare

891 non-null

float64

10

Cabin

 

204 non-null

 

object

11

Embarked

889 non-null

object

Анализ значений выборки показывает, что поле Age имеет почти 200 незаполненных значений, Embarked – два незаполненных значения, Cabin и вовсе имеет очень мало записей с информацией. В будущем нам придется либо восполнять эти данные либо не использовать данные этих полей для анализа.

Зависимости признаков

Приведем графическое отображение показателей выборки, из которых можно получить какие либо заключения.

Данные по посадке пассажиров

Тепловые карты признаков

Отобразим тепловые карты по имеющимся признакам чтобы выявить корреляции между ними. В данном случае будет уместно рассмотреть численные признаки отдельно от всех.

Можно сделать вывод, что высоких корреляций не наблюдается. Мы можем выделить заметные соотношения между классом пассажира и его транспортных расходов (логично) а также с его возрастом – молодые люди с меньшей вероятностью могут позволить себе дорогую поездку.

Соседние файлы в предмете Интеллектуальный Анализ Данных