Работа с данными в любой сфере [заметки]

Шрифт
Интервал

1

Теперь вы, вероятно, привыкли к тому, что люди используют слово «данные» как множественную форму слова «данное» и что на самом деле правильно употреблять его с глаголами во множественном, а не в единственном числе. Вы можете упомянуть, что «данное» было впервые зафиксировано в 1645 г. как используемое в единственном числе Томасом Уркхартом и что только 60 лет спустя, в 1702-м, это слово стало использоваться как существительное во множественном числе. – Здесь и далее, за исключением особо оговоренных случаев, прим. автора.

2

Облачные данные хранятся за пределами сайта и в основном перемещаются по подводным кабелям, которые укладываются на дно океана. Так что облако находится не в воздухе, как мы могли подумать, а под водой. Карту расположения этих кабелей можно найти на www.submarinecablemap.com.

3

Гэллап был статистиком, впервые ставшим известным публике, когда разработал метод, с помощью которого он точно предсказал переизбрание Франклина Д. Рузвельта в 1936 г.

4

Более подробно о новаторской работе Джорджа Гэллапа см. Ohmer (2012).

5

Пример того, какие проблемы и возможности связаны с аналитикой данных в киноиндустрии, см. у Mishra and Sharma (2016), в докладе которых анализируется кинопроизводство и продюсирование в Индии.

6

Естественно, на пути этого подхода есть препятствия. Вы не сможете победить миллионы поклонников супергероев в Китае, которые в значительной степени отвечают за то, что Голливуд продолжает наращивать выпуск фильмов о мужчинах (и женщинах) в колготках, спасающих мир от зла. Вопросы о том, как данные влияют на творчество, возможно, выходят за рамки этой книги, но я бы сказал, что всегда существовало и всегда будет существовать пространство для творчества, даже в мире, управляемом данными. Мы не становимся тупее; мы просто делаем промышленность более эффективной.

7

Опасения по поводу технологической безработицы не новы – Джон Мейнард Кейнс писал об этом в 1930-х гг.: «Мы страдаем от новой болезни, названия которой некоторые читатели, возможно, еще не слышали, но о которой они многое услышат в ближайшие годы, а именно – о технологической безработице» (Кейнс, 1963).

8

Относительно транзисторной инфраструктуры у закона Мура есть ограничения. При размере около 1 нм свойства полупроводникового материала нарушаются такими квантовыми эффектами, как квантовое туннелирование. Кроме того, дальнейшее развитие инфраструктуры потребует альтернативы кремнию, который сейчас используется в качестве основного материала. – Прим. науч. ред.

9

Ошибка в программном обеспечении OpenSSL, которая позволяет несанкционированно читать оперативную память. Вызывает двустороннюю уязвимость: не только вы можете читать данные с уязвимого сервера, но и злоумышленник оказывается способен получить доступ к вашей оперативной памяти, если у вас поврежденная версия OpenSSL. – Прим. науч. ред.

10

Базирующаяся в Берлине компания, торгующая мужской одеждой. Продает коробки с индивидуально подобранными для каждого клиента товарами.

11

Это не даст нам исчерпывающих сведений о том, как и где наука о данных используется в нашей жизни, поскольку пирамида Маслоу принижает неосновные человеческие потребности. Такие области, как, например, военная оборона и освоение космического пространства, сюда не будут включены, поскольку они не являются основными потребностями человека.

12

Я использую пирамиду потребностей Маслоу в качестве примера для описания всеобъемлющей силы данных, но, если вы хотите узнать больше о том, как эта иерархия может быть применена в бизнесе, см. Conley (2007).

13

Программа использует интернет вещей и ИИ, чтобы предсказывать уровень загрязнения воздуха. – Прим. науч. ред.

14

Что, кстати, является еще одним примером того, как данные меняют наш способ потребления информации. Самые читаемые новостные онлайн-статьи будут выталкиваться на вершину кучи, что делает это войной за самый интригующий заголовок, а не за самый убедительный контент.

15

Американская компания, предоставляющая почтовые, курьерские и другие услуги логистики по всему миру. – Прим. пер.

16

Данные из этого проекта находятся в свободном доступе по адресу www.internationalgenome.org.

17

При этом задача робота – отвечать так, чтобы его не понял исследователь. – Прим. науч. ред.

18

Генеральный директор подразделения Google DeepMind Демис Хассабис определяет интуицию как неявное знание, которое приобретается через опыт и не является сознательно выраженным или даже доступным, поэтому мы не можем получить доступ к этому знанию сами и, конечно, не можем передать его другим.

19

В октябре 2017 г. Google DeepMind анонсировала AlphaGo Zero. Его особенность заключается в том, что он вообще не использует никаких челове>ческих данных, а скорее полностью учится на собственной игре (DeepMind, 2017). Эта новая версия настолько мощная, что победила первую Alpha Go в 100 играх. Как это коррелирует с экспоненциальным прогрессом в науке о данных?

20

Каталонский художник-абстракционист, прославившийся в том числе керамическими работами. – Прим. пер.

21

Мы также предлагаем множество бесплатных массивов данных для наших студентов на www.superdatascience.com.

22

Дополнительные сведения об управлении данными см. в докладе, представленном Британской академией и Королевским обществом (2017), а также в серии показательных выступлений в Британской академии в рамках Сезона робототехники, ИИ и общества (British Academy, 2017, запись доступна в интернете).

23

Возможны исключения. Руководство поставщика информации о том, как подготовить согласие пользователя на веб-сайтах, доступно на сайте Европейской комиссии: http://ec.europa.eu.

24

Пока что сайты уведомляют о том, что используют файлы cookie. Нельзя сказать, что законодательство в области сбора и хранения данных либерализуется, – наоборот, в ЕС был принят Общий регламент по защите данных (GDPR), обязывающий интернет-ресурсы в подробностях сообщать, какую информацию они собирают и хранят. – Прим. науч. ред.

25

Если вам кажется. что ваш проект в области науки о данных не вполне отвечает этическим нормам, я бы предложил найти или разработать этические рамки, которых ваша компания может придерживаться. Могу особенно рекомендовать документ «Этические принципы использования данных» (Data Science Ethical Framework) правительства Великобритании (UK Cabinet Office, 2016), который доступен в интернете.

26

Многие руководители считают, что для выявления проблемы следует использовать данные, однако такой подход редко срабатывает. Мы не можем заставить данные говорить – мы должны сначала определить, что хотим услышать.

27

Программное обеспечение для визуализации, которое я буду обсуждать более подробно в главе 8 «Визуализация данных».

28

Я говорю «потенциально», потому что важно не сбрасывать со счетов другие варианты слишком рано в этом процессе. Следите за решениями, которые вы принимаете, и запишите, как и почему вы посчитали массив данных менее важным. Это позволит вам быстро вернуться к началу, если позже нужно будет переформулировать вопрос.

29

Возможно, данное действие не поможет определить параметры, необходимые для постановки вопроса, но тем не менее крайне важно, чтобы вы выполнили этот этап.

30

Такого рода польза необязательно имеет денежное выражение, но может предполагать рост количества подписок клиентов, повышение эффективности и т. д. Главное здесь – понимать, что полезно для вашей компании, на этом должен быть основан ваш ответ.

31

Мнения аналитиков данных расходятся, но большинство считает, что на подготовку данных уходит 60–80 % времени, потраченного на реализацию всего проекта.

32

Нередко крупные организации, собирающие данные в течение многих лет, страдают от институциональной слепоты по отношению к науке о данных, не зная, что данные должны быть подготовлены до того, как их можно будет проанализировать, – иначе их информация непригодна для использования.

33

Игра загружается бесплатно, но игровые предметы для игроков, которые хотят продвигаться в игре быстрее, продаются за деньги.

34

Для различных таблиц используются вкладки, но объединить значения через них может быть сложно.

35

По мере развития вашей карьеры в науке о данных вы научитесь работать с различными хранилищами данных. Здесь мы говорим о CSV-файлах, потому что они наиболее распространены и универсальны и с них удобно начинать.

36

Ваше решение в конечном счете будет зависеть от того, нужны ли вам данные, и на этот вопрос можно легко ответить, если вы нашли время, чтобы определить вопрос на первом этапе процесса обработки и анализа данных.

37

Будьте осторожны с подобными полями. В Соединенных Штатах есть только один Солт-Лейк-Сити, но иногда вы найдете несколько городов, называющихся одинаково.

38

Версии MS Office различаются. Ввод «кривая распределения» в меню справки Excel покажет результаты, необходимые для создания кривой.

39

Например, 4556919574658621 будет отображаться как 4.55692 E+15.

40

В русскоязычной версии Excel 2013 нет опции «Использовать разделитель 1000», а вместо категории «Валюта» – формат «Денежный». Порядок действий в русскоязычной версии программы: в окне «Числовые форматы» выберите «Денежный», выберите «Нет» из выпадающего списка «Обозначение» и потом – «2» для числа десятичных знаков. – Прим. науч. ред.

41

Я выбрал эти группы потому, что они, как мне кажется, самые важные семейства алгоритмов. Все алгоритмы не самые простые (например, алгоритмы регрессии) и не самые сложные (такие, как нейронные сети и глубокое обучение). На мой взгляд, это самые полезные примеры анализа данных, которые вы можете применить, читая эту книгу.

42

Хотя мы будем использовать здесь две переменные, ваш алгоритм не должен ограничиваться только ими.

43

Чтобы избежать глупых ошибок, я считаю, что лучше всего пояснить свой подход последовательной маркировкой. Как вы можете видеть на блок-схеме, все ветви «да» находятся слева, а все ветви «нет» – справа. Все кажется очевидным, но вы будете удивлены количеством людей, которые пренебрегают этим.

44

Правила игры меняются. Иногда вам нужно угадать точное число конфет, иногда же достаточно дать ответ как можно более близкий к фактическому количеству. Представленная здесь стратегия лучше всего подходит для последнего случая.

45

Из-за усреднения «вклада» деревьев может быть чрезвычайно сложно проследить логику в прогнозах.

46

Обычно используемое значение k в k-NN равно 5 и является числом по умолчанию для многих инструментов анализа данных.

47

Это показывает, почему общепринятой практикой является выбор k = 5: тестирование нечетного числа соседей помогает избежать ситуаций, когда категории становятся связанными с равным числом «ближайших соседей» (например, 2 и 2 ближайших соседа, если k = 4).

48

См. видео Джулии Галеф «Визуальное руководство по байесовскому мышлению» для некоторых неожиданных реальных приложений теоремы Байеса. www.youtube.com/watch?v=BrK7X_XlGB8.

49

Имейте в виду, что мы на самом деле не размещаем наш текущий урожай на диаграмме рассеяния – это позволяет избежать путаницы, когда мы начинаем подсчет точек данных в круге. Вместо этого мысленно представьте, что он находится в середине круга.

50

Если в массиве данных есть только две категории, можно получить вероятность второго результата из первого, так как эти вероятности должны в конечном итоге составить 1 (или 100 %). Тем не менее полезно использовать уравнение для всех категорий, чтобы дважды проверить, что они в сумме дают 1, – это хороший способ проверить ваши результаты.

51

Не будем вдаваться в подробности и вместо этого станем опираться на интуицию. По этой причине некоторые уравнения будут даны без доказательств.

52

Мы говорим «случайным образом» для простоты. Хотя при выборе начального местоположения центроидов необходимо помнить о некоторых подводных камнях, эта тема является более сложной и обычно учитывается алгоритмом.

53

Предположим для этого примера, что существует по крайней мере один игровой автомат, который в конечном итоге позволяет игроку выиграть больше, чем проиграть. Это не противоречит сказанному ранее: в совокупности игровые автоматы все еще могут быть настроены таким образом, чтобы в более чем в половине случаев казино выиграло в целом.

54

Такое распределение вероятностей, которое описывает результаты «да»/«нет», называется распределением Бернулли.

55

Естественно, на первом этапе неизбежен некоторый уровень случайности, так как у нас не будет никаких данных на этот момент, но должны же мы с чего-то начать, в конце концов!

56

Помните: это упражнение поможет нам понять, как работает алгоритм. В реальном сценарии мы не знали бы об ожидаемом выигрыше.

57

Чтобы быть полностью корректными – мы никогда не можем быть на 100 % уверены в точном диапазоне ожидаемого выигрыша. Он может быть где угодно! И именно поэтому границы рассчитываются таким образом, что ожидаемая доходность попадает в них с определенным уровнем уверенности (например, 95 %). Это также объясняет, почему они называются доверительными границами.

58

Названа в честь разработчика Уильяма Томпсона.

59

Это немного отличается от графика для алгоритма ВДГ, где ожидаемый выигрыш показан на оси y.

60

Представьте себе область под кривой распределения как пространство, в котором может быть нарисована точка данных. Логически, вы в состоянии увидеть, что существует больше возможностей для точки данных там, где самая высокая кривая, потому что она занимает больше места на графике, чем хвосты распределения.

61

Таково обучение с подкреплением в действии. Алгоритм сделал неверный выбор – и наказывается неудачей (нолем). Распределение смещается влево, чтобы алгоритм помнил, что сделал потенциально плохой выбор и должен попытаться избежать его в будущем.

62

Еще одна совершенно бесплатная альтернатива Tableau – Microsoft Power BI, инструмент, который предлагает аналогичные функции; но лично я предпочитаю первую программу.

63

BI (Business intelligence) – IT-технологии для сбора, хранения и анализа данных. На основе информации, собранной и проанализированной с помощью BI, можно принимать эффективные решения для управления бизнес-процессами. – Прим. науч. ред.

64

Вдохновляющие идеи для визуализации проектов смотрите на сайте журналиста, работающего с данными, Дэвида Маккэндлесса, informationisbeautiful.net, что выводит визуальное повествование на новый уровень.

65

Это очень интересный инструмент, и я рекомендую попробовать его. Вы можете найти его, введя «Sentiment Viz» в Google.

66

Мой друг и наставник, Яу Тан, старший вице-президент по аналитике финансовых преступлений и управлению программами DBS Bank (Сингапур), полушутя относится к стадии представления процесса анализа данных как требующей дополнительных 80 % вашего времени (помимо 100 %, которые вы потратили на этапах 1–4), потому что то, что мы делаем на данном этапе, очень важно. Я называю это «правилом Яу 80–20–80» (SuperDataScience, 2016a).

67

Хотя эти советы могут быть полезны, не позволяйте им ограничивать ваше творчество. Не существует единого наилучшего подхода к составлению и проведению презентации. Стиль, который наиболее удобен для вас, может отличаться от того, что подходит мне.

68

В своей основополагающей работе «Хьюстон, у нас есть история?» (Houston, We Have a Narrative?) Олсон говорит о пользе рассказывания историй для передачи сложных научных концепций.

69

В отчете CrowdFlower по науке о данных за 2017 г. 88 % опрошенных аналитиков данных сказали, что они либо счастливы, либо очень счастливы своим положением.

70

Обратите внимание, что этот перечень не высечен в камне и должностные инструкции будут разными для каждого учреждения. Всегда необходимо внимательно прочитать описание, прежде чем подавать заявление. Представленный здесь список можно использовать в качестве руководства для написания заявления.

71

Обратите внимание, как увеличение числа университетских степеней и курсов в области науки о данных показывает, что мир начинает признавать науку о данных в качестве самостоятельной дисциплины.

72

Если вы ищете место для общения с аналитиками данных, то я хотел бы пригласить вас взглянуть на SuperDataScience, социальную платформу, полностью посвященную науке о данных.

73

Мероприятия, на которых программисты и аналитики данных сотрудничают в технологических проектах.

74

Даже Артем Владимиров, с которым мы встречались в главе 6, вышел на профессиональное поле с относительно небольшим опытом в этой дисциплине. Он присоединился к Deloitte после получения диплома бухгалтера, даже не умея программировать. В итоге Артем сделал впечатляющую карьеру в области науки о данных: он решает основные аналитические задачи и выступает с презентациями по всему миру.

75

Национальный фонд Великобритании по науке, технике и искусству (NESTA, www.nesta.org.uk) поможет тем, кому нужна дополнительная информация о благотворительной деятельности в области науки о данных. См. особенно Baeck (2015) и Symons (2016), чтобы начать размышлять о том, какую пользу может принести использование данных.

76

Названы в честь Энрико Ферми. Во время первого испытания ядерного оружия в 1945 г. он оценил мощность атомной бомбы, основываясь на том, как далеко разлетелись клочки бумаги, подброшенные им вверх во время взрыва. Названное Ферми значение мощности оказалось близко к действительному.


Рекомендуем почитать
Игродром. Что нужно знать о видеоиграх и игровой культуре

Жизнь современного человека плотно связана с видеоиграми. Даже если вы не играете сами, в вашем окружении наверняка найдутся заядлые геймеры, а новости из индустрии игр зачастую не обходят и вас стороной. Это положение дел приводит к вопросам: а что же такое видеоигры и какое место они занимают в жизни человека? Поиском ответов на них занимается дисциплина game studies. Александр Ветушинский – один из ведущих российских представителей этого направления исследований. Его книга «Игродром» – философское осмысление этапов развития игровой индустрии, анализ.


Выразительный JavaScript

В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.


Справка по SQL

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку.


Создание инструмента научных исследований на основе XML: Проблемы и методология

"В своем докладе я опишу процесс создания электронного исследовательского инструмента, имеющего в своей основе печатный библиографический указатель, который предназначен для использования в научных целях, а также проанализирую некоторые трудности, с которыми мы столкнулись в ходе реализации данного проекта, и расскажу об избранных нами вариантах решения возникших проблем.".


Обработка баз данных на Visual Basic.NET

Это практическое руководство разработчика программного обеспечения на Visual Basic .NET и ADO.NET, предназначенное для создания приложений баз данных на основе WinForms, Web-форм и Web-служб. В книге описываются практические способы решения задач доступа к данным, с которыми сталкиваются разработчики на Visual Basic .NET в своей повседневной деятельности. Книга начинается с основных сведений о создании баз данных, использовании языка структурированных запросов SQL и системы управления базами данных Microsoft SQL Server 2000.