Наука о данных. Базовый курс - [7]

Шрифт
Интервал

. В целом сегодня большинство проектов, осуществляемых в рамках науки о данных, соответствует подходу машинного обучения к построению точных моделей прогнозирования и все меньше озабочены статистическим объяснением. Таким образом, хотя наука о данных родилась в дискуссиях вокруг статистики и до сих пор заимствует некоторые статистические методы и модели, со временем она разработала свой собственный, особый подход к анализу данных.

С 2001 г. концепция науки о данных значительно расширилась и вышла за пределы модификаций статистики. Например, в последние 10 лет наблюдается колоссальный рост объема данных, генерируемых онлайн-активностью (интернет-магазинами, социальными сетями или развлечениями). Чтобы собрать эту информацию (порой неструктурированную) из внешних веб-источников, подготовить и очистить ее для использования в проектах по анализу данных, специалистам по данным требуются навыки программирования и взлома. Кроме того, появление больших данных означает, что специалист по данным должен уметь работать с такими технологиями, как Hadoop. Фактически сегодня понятие «специалист по данным» стало настолько широким, что вызвало настоящие дебаты о том, как определить его роль и требуемые опыт и навыки>{4}. Тем не менее можно перечислить их, опираясь на мнение большинства людей, как это сделано на рис. 1. Одному человеку трудно овладеть всем перечисленным, и большинство специалистов по данным действительно обладают глубокими знаниями и реальным опытом только в некоторых из этих областей. При этом важно понимать и осознавать вклад каждой из них в проекты по обработке данных.



Специалист по данным должен иметь экспертный опыт в предметной сфере. Большинство проектов начинаются с реальной проблемы и необходимости разработать ее решения. Специалист по данным должен понимать и проблему, и то, как ее решение могло бы вписаться в организационные процессы. Этот экспертный опыт направляет специалиста при поиске оптимального решения. Он также позволяет конструктивно взаимодействовать с отраслевыми экспертами, чтобы докопаться до самой сути проблемы. Кроме того, специалист по данным может использовать его в работе над аналогичными проектами в той же или смежной областях и быстро определять их фокус и охват.

В центре всех проектов науки о данных находятся сами данные. Однако тот факт, что организация имеет доступ к данным, не означает, что у нее есть формальное или этическое право на их использование. В большинстве юрисдикций существует антидискриминационное законодательство и законы о защите персональных данных. Специалист по данным должен знать и понимать эти правила, а также (в более широком смысле) понимать этические последствия своей работы, если хочет использовать данные на законных основаниях и надлежащим образом. Мы вернемся к этой теме в главе 7, где обсудим правовые нормы и этические вопросы, связанные с наукой о данных.

В большинстве организаций значительная часть данных поступает из баз, размещенных внутри самой организации. Но по мере роста архитектуры данных проекты начнут получать их из множества других источников, в том числе из источников больших данных. Данные в этих источниках могут существовать в различных форматах, но, как правило, представляют собой базы на основе реляционной модели, NoSQL или Hadoop. Эти данные должны быть интегрированы, очищены, преобразованы, нормализованы и т. д. Такие задачи могут называться по-разному, например: ETL (извлечение, преобразование, загрузка), подготовка, слияние, уплотнение данных и др. Результаты обработки должны храниться и управляться, как и исходные данные. Для этого также используют базы, чтобы результаты можно было легко распределить между частями организации или обеспечить им совместный доступ. Следовательно, специалист по данным должен обладать навыками взаимодействия с базами данных и обработки содержащейся в них информации.

Понятие «компьютерные науки» используется здесь для обозначения целого ряда навыков и инструментов, которые позволяют специалисту работать с большими данными и преобразовывать их в новую значимую информацию. Высокопроизводительные вычисления (HPC) предполагают агрегацию вычислительных мощностей для достижения большей производительности, чем может дать автономный компьютер. Многие проекты имеют дело с очень большими наборами данных и/или алгоритмами машинного обучения, которые требуют дорогостоящих вычислений. В таких ситуациях важно иметь навыки доступа к ресурсам HPC и их использования. Помимо HPC, мы уже упоминали о задачах сбора, очистки и интегрирования веб-данных, стоящих перед специалистом. Сюда же входит умение обрабатывать неструктурированный текст и изображения. Кроме того, неплохо, если специалист по данным способен сам написать приложение для выполнения конкретной задачи или изменить существующее, чтобы настроить его под конкретные данные и сферу деятельности. Наконец, необходима компьютерная грамотность, чтобы понимать и разрабатывать модели машинного обучения и интегрировать их в производственные, аналитические или внутренние приложения организации.


Рекомендуем почитать
Игродром. Что нужно знать о видеоиграх и игровой культуре

Жизнь современного человека плотно связана с видеоиграми. Даже если вы не играете сами, в вашем окружении наверняка найдутся заядлые геймеры, а новости из индустрии игр зачастую не обходят и вас стороной. Это положение дел приводит к вопросам: а что же такое видеоигры и какое место они занимают в жизни человека? Поиском ответов на них занимается дисциплина game studies. Александр Ветушинский – один из ведущих российских представителей этого направления исследований. Его книга «Игродром» – философское осмысление этапов развития игровой индустрии, анализ.


Выразительный JavaScript

В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.


Справка по SQL

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Обработка баз данных на Visual Basic.NET

Это практическое руководство разработчика программного обеспечения на Visual Basic .NET и ADO.NET, предназначенное для создания приложений баз данных на основе WinForms, Web-форм и Web-служб. В книге описываются практические способы решения задач доступа к данным, с которыми сталкиваются разработчики на Visual Basic .NET в своей повседневной деятельности. Книга начинается с основных сведений о создании баз данных, использовании языка структурированных запросов SQL и системы управления базами данных Microsoft SQL Server 2000.


S. D. F.

Если вам интересен SQL, и знаком Delphi, давайте поразвлекаемся программированием.


MySQL: руководство профессионала

Это не совсем книга. Просто по ходу работы и изучения пакета у меня накопилось немало заметок, которые я в конце концов собрал воедино и опубликовал с оглавлением и под единым названием. Данные заметки относятся к версиям 4 и 5 пакета MySQL. По ходу текста особо отмечены места, относящиеся к специфической версии пакета.