Наука о данных. Базовый курс - [10]

Шрифт
Интервал

от DeepMind является отличным примером того, как глубокое обучение произвело революцию в области исследований. Го — настольная игра, созданная в Китае 3000 лет назад. Играть в го проще, чем в шахматы: игроки по очереди размещают фигуры на доске с целью захвата фигур противника или окружения пустой территории. Однако простота правил и тот факт, что в гo используется доска с бо́льшим числом клеточек, означают и большее число возможных конфигураций, нежели в шахматах. Число возможных конфигураций в го больше, чем число атомов во Вселенной, и это делает го гораздо более сложной игрой для компьютера, чем шахматы, в силу огромного пространства для поиска и сложности в оценке всех возможных конфигураций. Команда DeepMind использовала модели глубокого обучения, чтобы AlphaGo смогла оценивать конфигурации на доске и выбирать следующий ход. В результате AlphaGo стала первой компьютерной программой, которая победила профессионального игрока, а в марте 2016 г. она одержала победу над 18-кратным чемпионом мира по го Ли Седолем в матче, который посмотрели более 200 млн человек во всем мире. Еще совсем недавно, в 2009 г., лучшая компьютерная программа для игры в го оценивалась как соответствующая любительскому уровню, а уже спустя семь лет AlphaGo обыграла чемпиона мира. В 2016 г. в самом престижном академическом журнале Nature была опубликована статья, описывающая алгоритмы глубокого обучения, заложенные в AlphaGo>{12}.

Глубокое обучение также оказало огромное влияние на ряд публичных потребительских технологий. В настоящее время Facebook использует глубокое обучение для распознавания лиц и анализа текста, чтобы подбирать людям рекламу на основе их онлайн-разговоров. Google и Baidu используют глубокое обучение для распознавания изображений, титрования и поиска, а также для машинного перевода. Виртуальные помощники Apple Siri, Amazon Alexa, Microsoft Cortana и Samsung Bixby используют распознавание речи на основе глубокого обучения. Huawei разрабатывает виртуального помощника для китайского рынка, в котором также будет использоваться система распознавания речи с глубоким обучением. В главе 4 мы более подробно расскажем об этом. Хотя глубокое обучение является важной технической разработкой, возможно, с точки зрения роста науки о данных наиболее интересным его аспектом будет демонстрация возможностей и преимуществ самой науки о данных и привлечение внимания организаций к результатам таких успешных историй.

Разоблачение мифов

Наука о данных дает много преимуществ современным организациям, но вокруг нее крутится и масса слухов, поэтому важно понять, каковы реальные ограничения науки о данных. Одним из самых больших мифов является вера в то, что наука о данных — автономный процесс, который сам найдет решения наших проблем. Но на деле на всех этапах этого процесса требуется квалифицированный человеческий контроль. Люди нужны для того, чтобы сформулировать проблему, спроектировать и подготовить данные, выбрать, какие алгоритмы машинного обучения являются наиболее подходящими, критически интерпретировать результаты анализа и спланировать соответствующие действия, основанные на выявленных закономерностях. Без квалифицированного человеческого надзора проект по обработке данных не сможет достичь своих целей. Лучшие результаты мы видим, когда объединяются человеческий опыт и компьютерная мощь. Как выразились Линофф и Берри: «Глубинный анализ данных позволяет компьютерам делать то, что они умеют лучше всего, — копаться в куче информации. Это, в свою очередь, дает людям делать то, что лучше всего получается у них, — ставить задачу и осмыслять результаты»>{13}.

Широкое и все возрастающее использование науки о данных означает, что сегодня самая большая проблема для многих организаций заключается в найме аналитиков. Человеческий фактор в науке о данных имеет первостепенное значение, и ограниченный ресурс специалистов является основным узким местом в распространении самой науки. Чтобы лучше представить масштаб нехватки специалистов, заглянем в отчет McKinsey Global Institute (MGI) за 2011 г.: прогноз дефицита сотрудников с навыками обработки данных и аналитики в Соединенных Штатах в ближайшие годы — от 140 000 до 190 000 человек; еще больший дефицит — 1,5 млн человек — менеджеров, способных понимать науку о данных и аналитические процессы на уровне, который позволяет им надлежащим образом запрашивать и интерпретировать результаты>{14}. Спустя пять лет в своем отчете за 2016 г. MGI по-прежнему убежден, что наука о данных имеет огромный неиспользованный потенциал в расширяющемся диапазоне приложений, а дефицит специалистов сохраняется с прогнозируемой нехваткой 250 000 человек в ближайшей перспективе>{15}.

Второй большой миф заключается в том, что каждый проект непременно нуждается в больших данных и требует глубокого обучения. Как правило, наличие большого объема данных помогает, но гораздо важнее, чтобы данные были правильными. Подобные проекты часто ведутся в организациях, которые располагают значительно меньшими ресурсами с точки зрения данных и вычислительной мощности, чем Google, Baidu или Microsoft. Примеры проектов небольшого масштаба: прогнозирование требований возмещения ущерба в страховой компании, которая обрабатывает около 100 заявок в месяц; прогноз отсева студентов в университете, где обучаются менее 10 000 человек; ожидания ротации членов профсоюза с несколькими тысячами участников. Эти примеры показывают, что организации не нужно обрабатывать терабайты информации или иметь в своем распоряжении огромные вычислительные ресурсы, чтобы извлечь выгоду из науки о данных.


Рекомендуем почитать
Игродром. Что нужно знать о видеоиграх и игровой культуре

Жизнь современного человека плотно связана с видеоиграми. Даже если вы не играете сами, в вашем окружении наверняка найдутся заядлые геймеры, а новости из индустрии игр зачастую не обходят и вас стороной. Это положение дел приводит к вопросам: а что же такое видеоигры и какое место они занимают в жизни человека? Поиском ответов на них занимается дисциплина game studies. Александр Ветушинский – один из ведущих российских представителей этого направления исследований. Его книга «Игродром» – философское осмысление этапов развития игровой индустрии, анализ.


Выразительный JavaScript

В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.


Flat Assembler 1.64. Мануал программера

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


S. D. F.

Если вам интересен SQL, и знаком Delphi, давайте поразвлекаемся программированием.


Справка по SQL

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Обработка баз данных на Visual Basic.NET

Это практическое руководство разработчика программного обеспечения на Visual Basic .NET и ADO.NET, предназначенное для создания приложений баз данных на основе WinForms, Web-форм и Web-служб. В книге описываются практические способы решения задач доступа к данным, с которыми сталкиваются разработчики на Visual Basic .NET в своей повседневной деятельности. Книга начинается с основных сведений о создании баз данных, использовании языка структурированных запросов SQL и системы управления базами данных Microsoft SQL Server 2000.