Работа с данными в любой сфере - [20]

Шрифт
Интервал

Вы можете подумать, что люди всегда будут действовать эффективнее машин при изучении средств массовой информации: большинство из нас все еще считает, что мы всегда будем лучше понимать более широкую контекстуальную среду. Как компьютер может распознать период искусства, или стаю чаек, или эмоции лучше, чем человек? На самом деле машины уже давно могут давать ошеломляюще точные прогнозы в отношении нечисловых данных. Еще в 2011 г. исследование, проведенное Институтом нейроинформатики Рурского университета в Бохуме и кафедрой компьютерных наук Копенгагенского университета, показало, что машины могут превосходить людей в выполнении даже таких сложных задач, как идентификация дорожных знаков (Stallkamp et al., 2012). Для этого исследования команда показала испытуемым машинам и людям фотографию, разделенную на квадраты. Задача состояла в том, чтобы определить, на каких квадратах (если таковые имелись) есть полное или частичное изображение дорожного знака. Возможно, вы видели эти тесты в интернете – в настоящее время они используются для дополнительной проверки безопасности перед входом пользователя на сайт и специально разработаны, чтобы лишить роботов доступа к защищенным данным. Результаты этого исследования показывают, что мы уже не в состоянии предотвратить захват данных искусственным интеллектом.

Облака слов

Я вижу, что облака слов часто используются в публичных презентациях, и подозреваю, что причина в том, что они искусно и содержательно сочетают изображение с текстом. Облака слов (или облака тегов) – это популярные способы визуализации текстовой информации, и если вы еще не используете их в своих презентациях, то захотите, узнав, как они работают. Создатель облака слов берет набор наиболее часто используемых слов из фрагмента анализируемого текста и группирует их в одном изображении, обозначая порядок их важности размером шрифта, а иногда также и цветом.

Облака слов, естественно, можно использовать для выделения тех терминов, которые чаще всего встречаются в тексте, будь то пресс-релиз или литературное произведение. Они также могут быть применены к данным опросов, что делает их очень простым, но эффективным способом показать пользователям ключевые понятия или ощущения, связанные с заданным вопросом. Таким образом, их эффективность связана с многофункциональностью и определением ключевых или наиболее значимых слов во всем, что содержит текст: метаданных, романах, докладах, анкетах, эссе или исторических записях.

В интернете есть много простых генераторов облака слов, где вы можете поиграть со шрифтами, макетами и цветовыми схемами. (Облако слов на рис. 3.1, например, было сгенерировано на основе анализа текста введения этой книги с использованием www.wordclouds.com.) Они гораздо более привлекательно выглядят, чем упорядоченные списки. Обратитесь к ним при подготовке своей следующей презентации; вы удивитесь тому, как легко окажется запустить дискуссию (подробнее о средствах визуальной аналитики см. главу 6).

Наука о данных значительно облегчила компаниям доступ к средствам массовой информации и их анализ. Большинство владельцев бизнеса и маркетологов знакомы с SurveyMonkey – онлайн-провайдером бесплатных анкет, который обрабатывает сведения, полученные из опросов, с помощью своих инструментов анализа данных. Пользователи получают доступ к потребительским данным в режиме реального времени, а ответы из анкет участников визуализируются в виде простой графики и пользовательского дашборда. На момент написания этой книги компания может предоставлять результаты в режиме реального времени, составлять пользовательские отчеты в виде диаграмм и графиков, осуществлять фильтрацию данных, выявляя демографические тенденции, а также проводить текстовый анализ, давая пользователям наиболее релевантные текстовые данные из опросов в виде облака слов.

В то время как лучшие инструменты анализа в настоящее время небесплатны для пользователей, все большее количество программного обеспечения либо имеет открытый исходный код, либо находится в свободном доступе в интернете. Если бы вы были художником, это походило бы на бесконечный запас мольбертов, красок и холстов.

Я настоятельно призываю вас использовать эти общедоступные массивы данных для проверки своих навыков и проведения собственных анализов. В практике нет кратчайшего пути. Многое из того, что вы делаете, особенно на начальном этапе, будет включать в себя пробы и ошибки. Лучший способ приучить себя отстраненно думать о решении проблем с помощью данных – повысить свою открытость различным сценариям, другими словами, различным массивам данных.

С чего начать? Лучший выбор может быть прямо под носом. Я ожидаю, что многие читатели окажутся владельцами бизнеса или сотрудниками компании, которая рассчитывает использовать данные в ближайшем будущем. Те из вас, кто так или иначе работал с какой-то компанией, в какой-то момент столкнутся с бизнес-аналитикой.

Бизнес-аналитика vs наука о данных

Если вы уже использовали бизнес-аналитику (БА) на своем рабочем месте, значит, вы уже кое-что умеете. С помощью БА вы должны определить бизнес-вопрос, найти соответствующие данные, визуализировать и представить их убедительным образом инвесторам и заинтересованным сторонам. Это уже четыре из пяти этапов процесса изучения данных, к которым мы вернемся во второй и третьей частях. Основным исключением является то, что БА не проводит детального, исследовательского анализа данных. Она просто


Рекомендуем почитать
Игродром. Что нужно знать о видеоиграх и игровой культуре

Жизнь современного человека плотно связана с видеоиграми. Даже если вы не играете сами, в вашем окружении наверняка найдутся заядлые геймеры, а новости из индустрии игр зачастую не обходят и вас стороной. Это положение дел приводит к вопросам: а что же такое видеоигры и какое место они занимают в жизни человека? Поиском ответов на них занимается дисциплина game studies. Александр Ветушинский – один из ведущих российских представителей этого направления исследований. Его книга «Игродром» – философское осмысление этапов развития игровой индустрии, анализ.


Выразительный JavaScript

В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.


Справка по SQL

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку.


Создание инструмента научных исследований на основе XML: Проблемы и методология

"В своем докладе я опишу процесс создания электронного исследовательского инструмента, имеющего в своей основе печатный библиографический указатель, который предназначен для использования в научных целях, а также проанализирую некоторые трудности, с которыми мы столкнулись в ходе реализации данного проекта, и расскажу об избранных нами вариантах решения возникших проблем.".


Обработка баз данных на Visual Basic.NET

Это практическое руководство разработчика программного обеспечения на Visual Basic .NET и ADO.NET, предназначенное для создания приложений баз данных на основе WinForms, Web-форм и Web-служб. В книге описываются практические способы решения задач доступа к данным, с которыми сталкиваются разработчики на Visual Basic .NET в своей повседневной деятельности. Книга начинается с основных сведений о создании баз данных, использовании языка структурированных запросов SQL и системы управления базами данных Microsoft SQL Server 2000.