Наука о данных. Базовый курс [заметки]

Шрифт
Интервал

1

Нильсон Н. Дж. Обучающиеся машины. — М.: Мир, 1967.

2

Цитата взята из приглашения на семинар «KDD — 1989». — Здесь и далее прим. авт.

3

Некоторые специалисты все же проводят границу между глубинным анализом данных и KDD, рассматривая первый как подраздел второго и определяя его как один из методов обнаружения знаний в базах данных.

7

Льюис М. MoneyBall. — М.: Манн, Иванов и Фербер, 2013.

8

Дабнер С., Левитт С. Фрикономика. — М.: Альпина Паблишер, 2018.

10

Хотя многие наборы данных можно описать как плоскую матрицу n × m, существуют сценарии, в которых набор данных представлен в более сложной форме: например, если набор данных описывает эволюцию нескольких атрибутов во времени, то каждый момент времени в наборе данных будет представлен двухмерной плоской матрицей n × m, перечисляющей состояние атрибутов в данный момент времени, но общий набор данных будет трехмерным, где время используется для связывания двумерных срезов момента. В таком контексте термин «тензор» иногда используется для придания идее матрицы дополнительного измерения.

11

Скрапинг (англ. scraping) — в широком смысле сбор данных с интернет-ресурсов. — Прим. пер.

12

Интерпретация высказывания Джорджа Бокса: «По сути, все модели ошибочны, но некоторые бывают полезны».

13

Для числового целевого атрибута наиболее распространенным показателем центральной тенденции является среднее значение, а для номинальных или порядковых данных — диапазон (или наиболее часто встречающееся значение).

14

Здесь мы используем более сложную запись, включающую и, поскольку далее мы будем расширять эту функцию и включать в нее более одного входного атрибута, а для этого понадобятся индексированные переменные.

15

Предостережение: приведенные здесь числовые значения следует воспринимать только как иллюстрацию, а не как окончательные оценки взаимосвязи между ИМТ и вероятностью развития диабета.

16

Обычно нейронные сети работают лучше, когда все входные данные имеют небольшие значения. Если заданы широкие диапазоны входных атрибутов, то атрибуты с большими значениями имеют тенденцию доминировать при обработке сетью. Чтобы этого не происходило, лучше всего нормализовать входные атрибуты под одинаковые диапазоны.

17

МПК — наибольшее количество кислорода, выраженное в миллилитрах, которое человек способен потреблять в течение одной минуты.

18

Для простоты мы не стали обозначать вес связей на рис. 14.

19

Не существует единого мнения относительно минимального количества скрытых слоев, необходимых для того, чтобы сеть считалась глубокой. Некоторые полагают, что для этого достаточно даже двух слоев. Однако большинство глубоких сетей имеют десятки слоев, а некоторые — сотни и даже тысячи.

20

Доступное введение в РНС, а также об их использовании при обработке естественного языка см.>{2} по адресу: https://tinyurl.com/RecurrentNeuralNetworks.

21

Технически это известно как проблема исчезающего градиента, поскольку градиент стремится к нулю при реализации алгоритма обратного распространения.

22

Существует два особых случая, которые также завершают алгоритм: ветвь сворачивается в отсутствие объектов после разделения набора данных или все входные атрибуты уже были использованы в узлах между корнем и ветвью. В обоих случаях добавляется завершающий узел, который помечается доминирующим значением целевого атрибута в родительском узле ветви.

23

Для ознакомления с энтропией и ее использованием в алгоритмах дерева решений см.>{4} по адресу: http://www.machinelearningbook.com.

24

Подробное тематическое исследование на тему оттока клиентов (Kelleher, Mac Namee, D’Arcy 2015) можно найти по адресу: http://www.machinelearningbook.com.

25

При проведении сетевого маркетинга рекламная кампания распространяется на широкий спектр веб-сайтов без узкого таргетинга на пользователей.

26

В поведенческом таргетинге используются данные об онлайн-активности пользователей — посещении страниц, кликах, времени, проведенном на сайте, и т. д. — и прогнозное моделирование для выбора рекламных объявлений, показываемых пользователю.

27

Директива ЕС о конфиденциальности и электронных коммуникациях [2002/58/EC].

28

Некоторые женщины, впрочем, открыто сообщают ритейлерам, что они беременны, регистрируясь в программах лояльности для будущих мам.

30

Паноптикум — проект, разработанный в XVIII в. юристом Джереми Бентамом для тюрем и психиатрических больниц. Отличительная особенность паноптикума состоит в том, что персонал может постоянно вести наблюдение без ведома заключенных. Основная идея этого проекта в том, чтобы заставить заключенных вести себя так, будто они находятся под постоянным наблюдением.

31

EMEA (European, the Middle East and Africa) — Европа, Средний Восток и Африка.

34

Роман Льва Толстого «Анна Каренина» начинается фразой: «Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему». Идея Толстого заключается в том, что для достижения счастья семья должна быть успешной по ряду критериев (любовь, финансы, здоровье, родственники), но неудача в любом из этих аспектов ведет к несчастью семьи. Таким образом, все счастливые семьи одинаковы, поскольку успешны по всем критериям, а несчастливые могут стать таковыми по разным причинам.


Рекомендуем почитать
Игродром. Что нужно знать о видеоиграх и игровой культуре

Жизнь современного человека плотно связана с видеоиграми. Даже если вы не играете сами, в вашем окружении наверняка найдутся заядлые геймеры, а новости из индустрии игр зачастую не обходят и вас стороной. Это положение дел приводит к вопросам: а что же такое видеоигры и какое место они занимают в жизни человека? Поиском ответов на них занимается дисциплина game studies. Александр Ветушинский – один из ведущих российских представителей этого направления исследований. Его книга «Игродром» – философское осмысление этапов развития игровой индустрии, анализ.


Выразительный JavaScript

В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.


Flat Assembler 1.64. Мануал программера

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


S. D. F.

Если вам интересен SQL, и знаком Delphi, давайте поразвлекаемся программированием.


Справка по SQL

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Обработка баз данных на Visual Basic.NET

Это практическое руководство разработчика программного обеспечения на Visual Basic .NET и ADO.NET, предназначенное для создания приложений баз данных на основе WinForms, Web-форм и Web-служб. В книге описываются практические способы решения задач доступа к данным, с которыми сталкиваются разработчики на Visual Basic .NET в своей повседневной деятельности. Книга начинается с основных сведений о создании баз данных, использовании языка структурированных запросов SQL и системы управления базами данных Microsoft SQL Server 2000.