Наука о данных. Базовый курс - [56]

Шрифт
Интервал


База данных (Database)

Центральное хранилище данных. Наиболее распространена реляционная структура базы данных, которая хранит данные в таблицах, где каждая строка отведена одному объекту, а каждый столбец — одному атрибуту. Это представление идеально подходит для хранения данных с четкой структурой, которые могут быть разложены на базовые атрибуты.


Большие данные (Big Data)

Большие данные часто определяют как «3V»: экстремальный объем (Volume), разнообразие типов (Variety) и скорость обработки данных (Velocity).


Высокопроизводительные вычисления (High Performance Computing, или HPC)

Нацелены на разработку и реализацию моделей для объединения большого количества компьютеров в кластер, способный эффективно хранить и обрабатывать большие объемы данных.


Выхлопные данные (Exhaust Data)

Данные, являющиеся побочным продуктом процесса, основной целью которого является нечто иное, чем сбор данных. Например, для каждого перепоста, ретвита или лайка в соцсетях создается ряд «выхлопных данных»: кто поделился, кто просмотрел, какое устройство использовалось, какое время суток и т. д. (В отличие от намеренно собранных данных.)


Выявление аномалий (Anomaly Detection)

Включает поиск и идентификацию экземпляров данных, которые являются нетипичными в наборе. Эти отклонения часто называют аномалиями или выбросами. Часто применяется при анализе финансовых транзакций для обнаружения потенциальных мошеннических действий и запуска расследований.


Глубинный анализ данных (Data Mining)

Процесс выявления в наборах данных полезных закономерностей для решения конкретной проблемы. CRISP-DM определяет стандартный жизненный цикл проекта глубинного анализа данных. Тесно связан с наукой о данных, но охватывает меньший круг задач.


Глубокое обучение (Deep Learning)

Модель глубокого обучения — это нейронная сеть, которая имеет несколько (больше двух) слоев скрытых элементов (или нейронов). Глубокие сети являются глубокими именно в смысле количества слоев нейронов. Сегодня большинство глубоких сетей имеют от 10 до 100 слоев. Сила глубокого обучения состоит в том, что на более поздних уровнях нейроны способны изучать производные атрибуты, составляя их из атрибутов, изученных нейронами на более ранних уровнях.


Данные (Data)

В самом общем смысле данные — это набор характеристик (или измерение) некоей реальной сущности (человека, объекта или события).


Дерево решений (Decision Tree)

Тип модели прогнозирования, которая кодирует правила условного оператора (если — тогда — иначе) в древовидной структуре. Каждый узел дерева определяет один атрибут для тестирования, и объект должен пройти путь от корневого узла до конечного, чтобы метка конечного узла в дальнейшем могла быть предсказана для этого объекта.


Интернет вещей (Internet of Things, IoT)

Межсетевой обмен информацией между физическими устройствами и датчиками. Включает в себя область разработки «машина — машина» (м2 м) по созданию систем, которые не только позволяют машинам обмениваться информацией, но и реагировать на нее, инициируя действия без участия человека.


Классификация (Classification)

Задача прогнозирования значения целевого атрибута объекта на основе набора значений входных атрибутов, где целевой атрибут отражает номинальный или порядковый тип данных.


Кластеризация (Clustering)

Выявление групп схожих объектов в наборе данных.


Обучение с учителем (Supervised Learning)

Форма машинного обучения, целью которой является изучение функции, отображаемой набором значений входных атрибутов объекта для вычисления отсутствующего значения целевого атрибута того же объекта.


Корреляция (Correlation)

Описывает силу, связывающую атрибуты.


Линейная регрессия (Linear Regression)

Когда в регрессионном анализе предполагается линейная зависимость, анализ называется линейной регрессией. Этот термин часто используется для описания моделей прогнозирования машинного обучения, которые применяют этот вид анализа для вычисления значения числового целевого атрибута.


Машинное обучение (Machine Learning)

Область компьютерных исследований, которая фокусируется на разработке и оценке алгоритмов, способных выявлять полезные закономерности в наборах данных. Алгоритм машинного обучения принимает на вход набор данных и возвращает модель, которая кодирует закономерности, выявленные алгоритмом.


Машинное обучение в базе данных (In-Database Machine Learning)

Использование алгоритмов машинного обучения, встроенных в решение для базы данных. Преимущество машинного обучения в базе данных состоит в том, что оно сокращает время, затрачиваемое на перемещение данных для анализа.


Метаданные (Metadata)

Данные, описывающие структуры и свойства других данных, например, временна́я метка, которая содержит информацию о том, когда фрагмент данных был собран. Метаданные являются одним из наиболее распространенных типов данных о выбросах.


Набор данных (Dataset)

Совокупность данных, относящихся к набору объектов, каждый из которых описан в терминах набора атрибутов. В своей основной форме набор данных организован в виде матрицы n × m, где n — количество объектов (строк), а m — количество атрибутов (столбцов).


Рекомендуем почитать
Игродром. Что нужно знать о видеоиграх и игровой культуре

Жизнь современного человека плотно связана с видеоиграми. Даже если вы не играете сами, в вашем окружении наверняка найдутся заядлые геймеры, а новости из индустрии игр зачастую не обходят и вас стороной. Это положение дел приводит к вопросам: а что же такое видеоигры и какое место они занимают в жизни человека? Поиском ответов на них занимается дисциплина game studies. Александр Ветушинский – один из ведущих российских представителей этого направления исследований. Его книга «Игродром» – философское осмысление этапов развития игровой индустрии, анализ.


Выразительный JavaScript

В процессе чтения вы познакомитесь с основами программирования и, в частности, языка JavaScript, а также выполните несколько небольших проектов. Один из самых интересных проектов — создание своего языка программирования.


Flat Assembler 1.64. Мануал программера

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


S. D. F.

Если вам интересен SQL, и знаком Delphi, давайте поразвлекаемся программированием.


Справка по SQL

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Обработка баз данных на Visual Basic.NET

Это практическое руководство разработчика программного обеспечения на Visual Basic .NET и ADO.NET, предназначенное для создания приложений баз данных на основе WinForms, Web-форм и Web-служб. В книге описываются практические способы решения задач доступа к данным, с которыми сталкиваются разработчики на Visual Basic .NET в своей повседневной деятельности. Книга начинается с основных сведений о создании баз данных, использовании языка структурированных запросов SQL и системы управления базами данных Microsoft SQL Server 2000.