Работа с данными в любой сфере - [19]

Шрифт
Интервал

Это еще один важный фактор для аналитиков данных: если вы хотите получить возможность запустить проект по обработке и анализу данных, вам придется научиться разговаривать с нужными людьми. Это часто будет означать расспросы вне вашей команды и потенциальной зоны комфорта. Данные ничего не скажут вам, если вы не зададите правильные вопросы, поэтому ваша работа – выйти «в свет» и получить ответы от людей, которые внесли свой вклад в вашу базу данных.

В обоих случаях, которые мы здесь обсуждали, – используете ли вы связанное с углубленными знаниями преимущество для поиска информации и применяете ли гибкие навыки для получения ответов от людей, – вы, вероятно, сталкиваетесь с данными, которые не являются числовыми и истинность которых поэтому зависит от контекста и субъективности анализа. Информация такого рода – мы называем ее неструктурированными данными – может быть письменным ответом, либо записанным видео- или аудиоинтервью, либо изображением. По причине того, что неструктурированные данные нельзя оценить количественно, компании часто предпочитают приглашать для их анализа специалистов в соответствующих областях.

4. Практика ведет к совершенству

Одним из замечательных аспектов науки о данных является то, что существует множество бесплатных материалов с открытым исходным кодом, которые позволяют легко продолжать практиковаться. Новички в какой-либо дисциплине склонны месяц за месяцем изучать теорию вместо того, чтобы настроить свое мышление на применение полученных знаний на практике. В качестве упражнения просто введите в поисковике слова «бесплатные массивы данных» / «free datasets» – и найдете множество сайтов, которые позволяют скачать их CSV-файлы (файлы для хранения табличных данных), готовые для анализа. Учитывая огромное количество и диапазон данных, от космических исследований NASA до комментариев Reddit или даже спортивных данных (баскетбол, футбол, бейсбол), я уверен, что вы найдете что-то ценное и интересное[21].

Аналитика неструктурированных данных

Неструктурированная аналитика работает, как вы уже догадались, с неструктурированными данными, которые составляют большую часть информации в мире. Давая определение неструктурированным данным, проще сказать, что это все, что не относится к структурированным данным (числовой информации). Это может быть текст, аудио, видео или изображения. Название объясняется тем, что этот вид данных нельзя непосредственно преобразовать в массив данных – их необходимо сначала подготовить, а поскольку неструктурированные данные зачастую нельзя автоматически перевести в исчисляемые, то в их анализе неизбежна некоторая степень субъективности. В связи с этим неструктурированная аналитика крайне важна для любого исследователя данных.

Классическим примером неструктурированной аналитики является работа с качественными опросами, которые дают данные в текстовом или ином нечисловом формате. В прошлом эти данные должны были быть преобразованы в числовую форму, прежде чем их можно было понять с помощью аналитических инструментов. Это означало, что любые вопросы, которые не предполагали множественного выбора или одного ответа – и поэтому не могли быть легко перенесены в числовой формат, – требовали от аналитика данных вручную производить численную классификацию каждого ответа.

Например, на вопрос о том, чем наслаждался посетитель Йеллоустонского национального парка во время своего пребывания в нем, можно было получить ряд ответов, включая «полевые цветы», «пикники», «занятия живописью», «наблюдение за птицами», «греблю на каяке», «отличный отель с завтраком» и т. д. Аналитик данных должен был бы прочитать все эти результаты, а затем вручную сгруппировать их в категории, которые, по его мнению, были значимыми, такие как «природа», «деятельность», «экскурсии» и «отдых». Не всегда легко сгруппировать ответы по категориям, так как здесь не исключен субъективный подход.

Вы можете себе представить, что перевод этих ответов в числа в лучшем случае представлял итоговый массив данных в немного искаженном виде.

Сегодня методы сортировки результатов по контексту кардинально изменили то, как мы проводим исследования, и новые алгоритмы в этой области помогают нам точно работать в том числе и с изображениями. Аналитики данных признают наличие проблем в методах организации качественных данных и прилагают согласованные усилия для обработки значений, которые нелегко преобразовать в цифры. Полученные алгоритмы позволяют давать гораздо более точные прогнозы, чем было возможно ранее. Теперь мы можем рассматривать слова аналогично числовым данным, например обучая аналитические инструменты идентификации вспомогательных глаголов, а также идиоматических выражений, которые имеют отдаленное отношение к заданному ключевому слову. Это позволяет машине исследовать текстовые данные куда более качественно. Здесь может прийти на ум анализ литературных произведений с помощью цифровых гуманитарных наук, но это лишь мизерная доля того, что могут делать машинные алгоритмы в этой области. Применения неструктурированной аналитики выходят далеко за рамки академической сферы и простираются в мир коммерции. Даже в криминалистике машины теперь могут просматривать письменные сообщения подозреваемых с целью установить особенности поведения, которые детектив мог не заметить.


Рекомендуем почитать
Игродром. Что нужно знать о видеоиграх и игровой культуре

Жизнь современного человека плотно связана с видеоиграми. Даже если вы не играете сами, в вашем окружении наверняка найдутся заядлые геймеры, а новости из индустрии игр зачастую не обходят и вас стороной. Это положение дел приводит к вопросам: а что же такое видеоигры и какое место они занимают в жизни человека? Поиском ответов на них занимается дисциплина game studies. Александр Ветушинский – один из ведущих российских представителей этого направления исследований. Его книга «Игродром» – философское осмысление этапов развития игровой индустрии, анализ.


Выразительный JavaScript

В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.


Справка по SQL

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку.


Создание инструмента научных исследований на основе XML: Проблемы и методология

"В своем докладе я опишу процесс создания электронного исследовательского инструмента, имеющего в своей основе печатный библиографический указатель, который предназначен для использования в научных целях, а также проанализирую некоторые трудности, с которыми мы столкнулись в ходе реализации данного проекта, и расскажу об избранных нами вариантах решения возникших проблем.".


Обработка баз данных на Visual Basic.NET

Это практическое руководство разработчика программного обеспечения на Visual Basic .NET и ADO.NET, предназначенное для создания приложений баз данных на основе WinForms, Web-форм и Web-служб. В книге описываются практические способы решения задач доступа к данным, с которыми сталкиваются разработчики на Visual Basic .NET в своей повседневной деятельности. Книга начинается с основных сведений о создании баз данных, использовании языка структурированных запросов SQL и системы управления базами данных Microsoft SQL Server 2000.