Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Васильев Ю. - Python для data science (Библиотека программиста) - 2023.pdf
Скачиваний:
6
Добавлен:
07.04.2024
Размер:
7.21 Mб
Скачать

8

Визуализация

Графические данные более наглядны, чем сухие

цифры. Например, можно создать линейный график,

отображающий изменение цены акции с течением

времени, или отследить интерес к статьям на сайте с помощью гистограммы ежедневных просмотров каждой из них. Визуализация такого рода поможет сразу же рас-

познать тенденции в данных.

В этой главе приводится обзор самых распространенных типов визуализации данных и рассказывается, как строить графики с помощью Matplotlib, популярной библиотеки Python. Мы также рассмотрим, как интегрировать Matplotlib с pandas и как создавать карты с помощью библиотек Matplotlib и Cartopy.

Распространенные способы визуализации

Существует несколько типов диаграмм для визуализации данных: линейные, столбчатые, круговые и гистограммы. В данном разделе мы обсудим все эти типы, а также исследуем типичные примеры использования каждого из них.

Линейные диаграммы

Линейные диаграммы, также известные как линейные графики, полезны, когда нужно проиллюстрировать тенденции в данных за определенный период

Распространенные способы визуализации      171

времени. На линейной диаграмме столбец меток времени датасета располагается вдоль оси x, а один или несколько числовых столбцов — по оси y.

В качестве примера рассмотрим веб-сайт, на котором пользователи могут просматривать различные статьи. Можно создать график статьи, где по оси x будет отображаться определенное количество дней, а по оси y — просмотры в каждый из этих дней. Такой график показан на рис. 8.1.

20

10

0

 

 

 

 

 

 

 

 

 

24/12 25/12

26/12

27/12

28/12 29/12

30/12

31/12

01/01 02/01

03/01 04/01

05/01

06/01

Рис. 8.1. Линейный график изменения количества просмотров статьи с течением времени

Можно наложить несколько параметров на одну линейную диаграмму, отображая каждый из них линией своего цвета, чтобы выявить корреляцию между ними. Например, на рис. 8.2 в дополнение к количеству просмотров статьи показано количество уникальных пользователей сайта в каждый из дней.

 

 

 

6

20

 

 

4

10

2

0

 

 

 

 

 

24/12 25/12 26/12

27/12

28/12

29/12

30/12 31/12

01/01 02/01 03/01 04/01 05/01 06/01

Рис. 8.2. Линейный график, показывающий взаимосвязь между параметрами

Левая ось y на этом графике показывает количество просмотров статьи, а правая ось y — количество уникальных посетителей. Наложение данных по обоим

172      Глава 8. Визуализация

параметрам наглядно демонстрирует общую корреляцию между количеством просмотров и уникальными посетителями.

ПРИМЕЧАНИЕ

Просмотры статей можно также отображать на гистограммах. Гистограммы мы обсудим позже в этом же разделе.

Столбчатые диаграммы

Столбчатые диаграммы, также называемые столбчатыми графиками, отображают категориальные данные с помощью прямоугольных столбиков с высотой, пропорциональной значениям представляемых данных, что позволяет сравнивать категории. Для примера рассмотрим значения, представляющие совокупный годовой объем продаж компании в разных регионах:

Новая Англия

$882 703

Северо-восток

$532 648

Средний Запад

$714 406

 

 

На рис. 8.3 показана столбчатая диаграмма с данными о продажах.

Г а а

П а

800 000

600 000

400 000

200 000

0

Н а А

С-

С За а

 

Рис. 8.3. Столбчатая диаграмма сравнения категориальных данных

Распространенные способы визуализации      173

На этом графике по оси y отображаются сравнительные показатели продаж для регионов, расположенных на оси x.

Круговые диаграммы

Круговые диаграммы иллюстрируют процентное соотношение категорий в датасете. На рис. 8.4 показаны объемы продаж из предыдущего примера в виде круговой диаграммы.

П а а

Н а А

41.4%

25%

С-

33.5%

С За а

Рис. 8.4. Круговая диаграмма с процентным соотношением категорий в виде круговых секторов

Размер сектора здесь дает наглядное представление о доле вклада каждой категории в общую картину. Можно с легкостью сравнить продажи в каждом регионе. Такая диаграмма эффективна, когда каждый из секторов занимает значительную часть круга, но как можно догадаться, круговая диаграмма не лучший выбор, если нужно отобразить очень маленькие сектора. Например, сектор, составляющий 0.01% от целого, может быть даже не виден на диаграмме.

Гистограммы

Гистограммы отображают частотные распределения, то есть сколько раз определенное значение либо диапазон значений встречается в датасете. Каждое значение (или итоговый показатель) представлено вертикальным столбцом, высота которого соответствует частоте этого значения. Например,