Работа с данными в любой сфере - [68]

Шрифт
Интервал

Исходные цвета этой тепловой карты показывают самые криминогенные дни недели для каждого месяца в Филадельфии в 2006–2015 гг. Цвета ячеек варьируются от темно-синего для воскресенья в феврале (наименьшее число преступлений) до темно-красного для вторника в июле (большинство преступлений).

Источник данных: www.opendataphilly.org
Гистограмма

В гистограмме данные сгруппированы в соразмерные столбцы информации, которые могут отображаться горизонтально или вертикально. Это хорошее наглядное пособие для сравнения и ранжирования количественных данных, поскольку по осям x и y значения легко различаются по длине.

Гистограммы и распределение вероятностей

Оба варианта, показывающие, как распределяются количественные данные, подходят для выделения пиков и спадов данных, что может пригодиться в работе с вероятностями или данными переписи, такими как возраст.

На этой гистограмме мы видим распределение роста игроков НБА в сезоне 2016/17 г.

Источник данных: www.scholarshipstats.com
Линейный график

Линейный график связывает точки данных одной линией. Чаще всего он используется для отображения тенденций во временны́х рядах, таких как частота использования продукта в течение года.

На этом графике мы видим рост цены акций Apple за последние пять лет.

Источник данных: www.data.worldbank.or
Диаграмма с областями

Диаграмма с областями – это график с зонами, выделенными цветом. Можно накладывать диаграммы областей поверх друг друга для того, чтобы категории контрастировали на рисунке. Этот тип диаграммы полезен при работе с сегментированными данными, например когда речь идет о клиентах, классифицированных по возрасту или местоположению.

На рисунке показана диаграмма, отображающая уровень долгосрочной безработицы (27 недель и более) за период с января 2005 г. по август 2017-го среди граждан США, разделенных по полу. Обратите внимание, что наложенные диаграммы также добавляются к диаграмме с областями, поэтому имеет смысл совместное рассмотрение категорий.

Данные souce: www.bls.gov
Точечная диаграмма

Этот тип диаграммы помещает данные на график, основанный на двух переменных информации по горизонтальной и вертикальной осям. Расположение точек данных на диаграмме будет зависеть от их отношения к переменным.

Эта диаграмма рассеяния позволяет, например, исследовать корреляцию между рождаемостью (сколько детей рождается ежегодно на каждую 1000 существующих граждан) и процентом людей, имеющих доступ к интернету. Каждая точка представляет страну и показывает, к какой категории дохода она относится:

Источник данных: www.data.worldbank.org

Примечание

Это хороший пример того, что корреляция необязательно подразумевает причинно-следственную связь. Или это не так?

Пузырьковая диаграмма

Пузырьковые диаграммы могут быть двух типов. Первый создается введением дополнительного слоя информации в точечную диаграмму – путем увеличения размера точек (и тем самым превращения их в пузырьки). Так, в нашем предыдущем примере мы могли бы присвоить размер точкам для отображения численности населения каждой страны.

Второй тип пузырьковой диаграммы гораздо менее сложный. Относительные размеры пузырьков по-прежнему кодируют данные, однако координаты отсутствуют и пузырьки расположены случайным образом.

Вот средние бюджеты фильмов в Голливуде по жанрам за 2007‒2011 гг.

Круговая диаграмма

Многие ненавидят круговые диаграммы, потому что, в отличие от гистограмм, они не позволяют быстро увидеть разницу между категориями. При этом надо иметь в виду, что такие диаграммы могут быть очень эффективны, если: а) у вас есть сравнимые по величине данные и вы хотите показать это или б) если у вас есть сильно различающиеся по величине данные. Как правило, лучше избегать использования круговых диаграмм для отображения более трех или четырех категорий. Если элементов больше трех, такие диаграммы становятся нерепрезентативными, поскольку приходится решать, в какой последовательности расположить элементы, и в случае их неправильного порядка сопоставлять данные становится сложно.

С помощью этой круговой диаграммы можно сравнить глобальные продажи игровых консолей нового поколения за 2014–2015 гг. Платформы в этом массиве данных – PS4, One и Wii.

Источник данных: www.vgchartz.com
Плоское дерево

Плоские деревья абсолютно не похожи на обычные деревья. Упорядочивание данных в блоки разного размера больше похоже на пузырьковые диаграммы за исключением того, что древовидные карты немного более организованны.

На этой карте представлена первая десятка стран с самыми большими военными бюджетами (оценки 2017 г., $млрд).

Диаграмма «водопад»

Диаграммы «водопад» позволяют отображать последовательность данных в виде положительных и отрицательных значений. Особенно полезны они при разбиении какой-либо крупной величины (например, прибыли) на компоненты.

На этой диаграмме отображены общий доход франшизы Star Wars и доля каждого фильма в нем.

Источник данных: www.statisticbrain.com
Диаграмма Сэнки

Диаграмма Сэнки отображает движение данных, используя размер и направление стрелок. Этот подход идеально годится для визуализации любого потока данных – идет ли речь о пользователях, проходящих через воронку продаж, или о миграционных моделях.


Рекомендуем почитать
Игродром. Что нужно знать о видеоиграх и игровой культуре

Жизнь современного человека плотно связана с видеоиграми. Даже если вы не играете сами, в вашем окружении наверняка найдутся заядлые геймеры, а новости из индустрии игр зачастую не обходят и вас стороной. Это положение дел приводит к вопросам: а что же такое видеоигры и какое место они занимают в жизни человека? Поиском ответов на них занимается дисциплина game studies. Александр Ветушинский – один из ведущих российских представителей этого направления исследований. Его книга «Игродром» – философское осмысление этапов развития игровой индустрии, анализ.


Выразительный JavaScript

В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.


Справка по SQL

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку.


Обработка баз данных на Visual Basic.NET

Это практическое руководство разработчика программного обеспечения на Visual Basic .NET и ADO.NET, предназначенное для создания приложений баз данных на основе WinForms, Web-форм и Web-служб. В книге описываются практические способы решения задач доступа к данным, с которыми сталкиваются разработчики на Visual Basic .NET в своей повседневной деятельности. Книга начинается с основных сведений о создании баз данных, использовании языка структурированных запросов SQL и системы управления базами данных Microsoft SQL Server 2000.


MySQL: руководство профессионала

Это не совсем книга. Просто по ходу работы и изучения пакета у меня накопилось немало заметок, которые я в конце концов собрал воедино и опубликовал с оглавлением и под единым названием. Данные заметки относятся к версиям 4 и 5 пакета MySQL. По ходу текста особо отмечены места, относящиеся к специфической версии пакета.