Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - [5]

Шрифт
Интервал

Так вы думаете, у вас есть все данные?

Покупатель подходит к кассе супермаркета, выкладывает на ленту выбранные товары, лазер сканирует их штрихкоды, и каждый раз кассовый аппарат издает звуковой сигнал, сообщая, что суммирует цены. В результате этой процедуры покупатель получает чек и расплачивается. Однако история его покупки на этом не заканчивается. Данные о купленных товарах и их стоимости отправляются в базу данных. Позже статистики и аналитики будут изучать их, создавая картину поведения покупателей на основе того, что они купили, какие из товаров были куплены вместе и, конечно, какие клиенты покупали эти товары. Казалось бы, здесь просто нельзя ничего пропустить. Данные о транзакциях собираются во всех случаях, кроме отключения электроэнергии, сбоя кассового аппарата или мошенничества.

Вроде бы собираются все данные. Иначе говоря, в базу попадают данные не по некоторым транзакциям или некоторым купленным товарам, а по всем транзакциям, совершенным всеми покупателями, и по всем товарам в конкретном супермаркете. Такие данные еще называют исчерпывающими.

Однако так ли это? Ведь собранные данные описывают то, что произошло на прошлой неделе или в прошлом месяце. Конечно, польза от них несомненна, но если мы управляем супермаркетом, то, вероятно, нам будет интересно, что произойдет завтра, на следующей неделе или через месяц. Мы бы хотели знать, кто, что, когда и сколько купит в будущем. Какие товары могут закончиться на полках, если не заказать их впрок? Как могут измениться предпочтения людей в отношении брендов? Другими словами, нам нужны данные, которые не собираются. Это связано с самой природой времени, и здесь фигурируют темные данные DD-тип 7: данные, меняющиеся со временем.

Помимо этого, интересно узнать, как вели бы себя люди, если бы мы, скажем, более плотно заставили товарами полки, или разместили их как-то иначе, или изменили часы работы супермаркета. Такие данные называются контрфактуальными, поскольку они противоречат реальным фактам – они о том, что случилось бы, если бы произошло нечто, чего на самом деле не происходило. Контрфактуальные данные классифицируются как DD-тип 6: данные, которые могли бы существовать.

Излишне говорить, что контрфактуальные данные интересуют не только менеджеров супермаркетов. Все мы принимаем те или иные лекарства и при этом, разумеется, доверяем врачу, который их прописал, предполагая, что лекарства прошли тестирование и были признаны эффективными. Но как бы вы себя чувствовали, если бы вдруг обнаружили, что ваши лекарства не были проверены? И не было собрано данных о том, помогают ли они вообще? Вдруг они делают только хуже? А если они даже и были протестированы и рекомендованы, то ускоряют ли эти лекарства на самом деле процесс выздоровления? А может быть, их не сравнивали с другими препаратами, чтобы оценить эффективность? В истории со слоновьим порошком такое сравнение принятых мер с бездействием быстро показывает, что для отпугивания слонов отсутствие действия так же эффективно, как и применение порошка. (А это, в свою очередь, может привести к следующему, не менее полезному выводу, что никаких слонов, которых надо отпугивать, просто нет.)

Возвращаясь к понятию «исчерпывающие данные», стоит отметить, что часто контекст делает явно бессмысленной саму возможность иметь «все» данные. Возьмите, например, свой вес. Узнать его легко – достаточно встать на весы. Однако уже не так легко будет повторно получить те же данные. Даже если сразу же встать на весы снова, результат, скорее всего, будет немного другим, особенно если попытаться измерить его с точностью до грамма. Никакие физические измерения нельзя считать абсолютно точными в результате погрешностей или случайных колебаний, возникающих вследствие очень незначительных изменений условий (DD-тип 10: ошибки измерения и неопределенность). Для решения этой проблемы ученые, измеряющие параметры какого-либо явления – скажем, скорость света или заряд электрона, проводят серию измерений, а затем усредняют значения. Можно сделать тысячи и миллионы измерений, но очевидно, что невозможно сделать «все» измерения. В этом контексте просто не существует понятия «все», а значит, не существует и исчерпывающих данных.

Следующий тип темных данных хорошо иллюстрируется примером знаменитых лондонских автобусов. Если вам доводилось на них ездить, то, скорее всего, вы помните, что они, как правило, набиты битком. И все же данные показывают, что средняя заполняемость одного автобуса составляет всего 17 человек. Но чем можно объяснить это кажущееся противоречие? Кто-то манипулирует цифрами?

Немного поразмыслив, вы поймете, что ответ довольно прост – в основном мы попадаем в автобусы в часы пик, именно поэтому они и набиты битком. Вот почему большинство людей видит автобусы переполненными. В то же время о пустом автобусе будет просто некому сообщить, что он пуст (разумеется, не считая водителя). Этот пример иллюстрирует темные данные DD-тип 3: выборочные факты. Иногда, впрочем, это может быть необходимым следствием сбора данных, и в таком случае мы получаем


Рекомендуем почитать
Золото в период мировых войн

Монография, посвященная положению золота на международной арене в первую и вторую мировые войны. Для изучающих экономическую и военно-экономическую историю.


Капитал. Полная квинтэссенция 3-х томов

«Капитал» – главный труд немецкого экономиста и политического деятеля Карла Маркса, несомненно, оказавший влияние на мировую историю. Данное издание – это основные положения и идеи содержащиеся в «Капитале», обработанные немецким экономистом и политиком Ю. Борхардтом. Как отмечает сам Борхардт, ему «удалось передать теорию учения в правильной форме», что «дает ключ непосвященному или новичку к ее пониманию». Книга будет интересна как специалистам, так и всем интересующимся вопросами социально-экономических теорий.


Urban Express

Эта книга – манифест урбанизации, которая подчинила себе и фанки-бизнес, и караоке-капитализм. Уже совсем скоро две трети населения Земли будет жить в городах, а вместо 219 стран формировать мировую экономику и политику будут 600 мегаполисов. Известный экономист Кьелл Нордстрем и один из выдающихся лекторов Швеции экс-политик Пер Шлингман заявляют: национальных государств скоро не будет. Они рассказывают о последствиях «интернетофикации», ценности диких знаний (тех, которые невозможно оцифровать) и каминг-ауте женщин, которые все активнее отстаивают свое место под солнцем: сегодня – образование, завтра – деньги и власть.


Изощренный механизм эксплуатации

В книге раскрывается сущность и формы, а также причины изменения современных капиталистических методов эксплуатации трудящихся в условиях HTP, построенных на выжимании все большей прибыли из квалификации, интеллектуальных сил и нервной энергии работников. Особое внимание уделено современным методам управления персоналом: осуществлению надзора и налаживанию «человеческих отношений», повышению качества «трудовой жизни», «гуманизации труда», влиянию роста эксплуатации на положение и здоровье трудящихся. Для широкого круга читателей.


Проложите "трубопровод", по которому потекут деньги

Книга о том, как во времена новой общественно-экономической формации каждый может проложить свой собственный "финансовый трубопровод"; как выбрать правильную стратегию и создавать множественные источники пассивного дохода.


Как богатые страны стали богатыми, и почему бедные страны остаются бедными

В настоящей книге известный норвежский экономист Эрик Райнерт показывает, что богатые страны стали богатыми благодаря сочетанию государственного вмешательства, протекционизма и стратегических инвестиций, а не благодаря свободной торговле. По утверждению автора, именно такая политика была залогом успешного экономического развития, начиная с Италии эпохи Возрождения и заканчивая сегодняшними странами Юго-Восточной Азии. Показывая, что современные экономисты игнорируют этот подход, настаивая и на важности свободной торговли, Райнерт объясняет это ним расколом в экономической науке между континентально-европейской традицией, ориентированной на комплексную государственную политику, с одной стороны, и англо-американской, ориентированной на свободную торговлю, — с другой. Написанная доступным языком, книга представляет интерес не только для специалистов по экономической истории и теории, но и для широкого круга читателей. Перевод с английского How Rich Countries Got Rich… and Why Poor Countries Stay Poor by Erik S.