Наука о данных. Базовый курс - [8]

Шрифт
Интервал

Графическое отображение данных существенно упрощает их просмотр и понимание. Визуализация применяется на всех этапах процесса. Работая с данными в табличной форме, легко пропустить такие вещи, как выбросы, тренды в распределениях или незначительные изменения данных во времени. Правильное графическое отображение выявляет эти и другие аспекты. Визуализация является важной и растущей областью науки о данных, и мы рекомендуем работы Эдварда Туфта>{5} и Cтефана Фью>{6} как отличное введение в ее принципы и методы.

В процессе обработки данных (от их первоначального сбора и исследования до сравнения результатов различных моделей и типов анализа) используются статистические и вероятностные методы. Машинное обучение применяет их для поиска закономерностей. Специалист по данным не обязан уметь писать алгоритмы машинного обучения, но должен понимать, как и для чего они используются, что означают сгенерированные ими результаты и на каком типе данных могут выполняться конкретные алгоритмы. Иначе говоря, воспринимать их как «серый ящик» — систему с частично известной внутренней структурой. Это позволит сконцентрироваться на прикладных аспектах и провести тестирование различных алгоритмов машинного обучения, чтобы понять, какие из них лучше всего подходят для конкретного сценария.

Наконец, важным аспектом успешности специалиста по данным является умение рассказать с их помощью историю. Это может быть история прозрения, которое дал анализ, или история о моделях, созданных в ходе проекта, которые идеально впишутся в процессы организации и благотворно повлияют на ее функционирование. В потрясающем проекте по обработке данных нет никакого смысла, если его результаты не будут использованы, но для этого надо сообщить о них коллегам, не имеющим технического образования, в такой форме, чтобы они смогли все понять.

Где используется наука о данных?

Наука о данных определяет принятие решений практически во всех сферах современного общества. В этом разделе мы опишем три тематических кейса, которые иллюстрируют ее влияние на потребительские компании, использующие науку о данных в продажах и маркетинге, на правительства, совершенствующие с ее помощью здравоохранение, правосудие и городское планирование, и на профессиональные спортивные клубы, проводящие на ее основе отбор игроков.

Наука о данных в продажах и маркетинге

Компания Walmart (и другие розничные сети) имеет доступ к большим наборам данных о предпочтениях своих покупателей, собирая их через системы торговых точек, отслеживая поведение клиентов в интернет-магазине и анализируя комментарии о компании и ее продуктах в социальных сетях. Уже более 10 лет Walmart использует науку о данных для оптимизации уровня запасов в магазинах. Хорошо известен пример, когда Walmart пополняла ассортимент пирожных с клубникой в магазинах на пути следования урагана «Фрэнсис» в 2004 г. на основе анализа данных о продажах в период прохождения урагана «Чарли» несколькими неделями ранее. Недавно Walmart использовала науку о данных для увеличения розничных доходов, начав внедрять новые продукты на основе анализа тенденций в социальных сетях, анализировать активность по кредитным картам для составления рекомендаций клиентам, а также оптимизировать и персонализировать взаимодействие с клиентами через официальный сайт. Walmart связывает увеличение объема онлайн-продаж на 10–15 % именно с использованием науки о данных>{7}.

В онлайн-мире эквивалентом апселлинга (продажи более дорогих версий товара) и перекрестных продаж являются рекомендательные системы. Если вы смотрели фильмы на Netflix или покупали что-нибудь на Amazon, то знаете, что эти сайты собирают и используют данные, а затем предлагают вам варианты следующих просмотров или покупок. Одни рекомендательные системы направляют вас к блокбастерам и бестселлерам, а другие — к нишевым продуктам, соответствующим вашим вкусам. В книге Криса Андерсона «Длинный хвост: Эффективная модель бизнеса в интернете»>{8} утверждается, что по мере удешевления производства и дистрибуции рынки переходят от продажи большого количества небольшого набора хитов к продажам меньшего количества более разнообразных нишевых продуктов. Этот компромисс между стимулированием продаж популярных и нишевых продуктов лежит в основе разработки рекомендательных систем и влияет на алгоритмы обработки данных, используемые в этих системах.

Использование науки о данных государственными структурами

В последние годы государственные структуры осознали преимущества науки о данных. Например, правительство США в 2015 г. назначило математика Дханурджая Патила первым главным специалистом по данным. Некоторые из крупнейших инициатив в области науки о данных, возглавляемых правительством, были связаны со здоровьем. Наука о данных лежит в основе проектов «Раковый прорыв» (Cancer Moonshot) и «Точная медицина» (Precision Medicine)[4]. «Точная медицина» сочетает секвенирование генома человека и науку о данных при разработке индивидуальных лекарств для отдельных пациентов. Одной из его частей является программа «Все мы» (All of Us)


Рекомендуем почитать
Игродром. Что нужно знать о видеоиграх и игровой культуре

Жизнь современного человека плотно связана с видеоиграми. Даже если вы не играете сами, в вашем окружении наверняка найдутся заядлые геймеры, а новости из индустрии игр зачастую не обходят и вас стороной. Это положение дел приводит к вопросам: а что же такое видеоигры и какое место они занимают в жизни человека? Поиском ответов на них занимается дисциплина game studies. Александр Ветушинский – один из ведущих российских представителей этого направления исследований. Его книга «Игродром» – философское осмысление этапов развития игровой индустрии, анализ.


Выразительный JavaScript

В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.


Справка по SQL

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Обработка баз данных на Visual Basic.NET

Это практическое руководство разработчика программного обеспечения на Visual Basic .NET и ADO.NET, предназначенное для создания приложений баз данных на основе WinForms, Web-форм и Web-служб. В книге описываются практические способы решения задач доступа к данным, с которыми сталкиваются разработчики на Visual Basic .NET в своей повседневной деятельности. Книга начинается с основных сведений о создании баз данных, использовании языка структурированных запросов SQL и системы управления базами данных Microsoft SQL Server 2000.


S. D. F.

Если вам интересен SQL, и знаком Delphi, давайте поразвлекаемся программированием.


MySQL: руководство профессионала

Это не совсем книга. Просто по ходу работы и изучения пакета у меня накопилось немало заметок, которые я в конце концов собрал воедино и опубликовал с оглавлением и под единым названием. Данные заметки относятся к версиям 4 и 5 пакета MySQL. По ходу текста особо отмечены места, относящиеся к специфической версии пакета.