Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - [11]

Шрифт
Интервал

Но независимо от того, очевидна или нет роль компьютеров, во всех случаях в машины поступают данные – измерения, сигналы, команды – и обрабатываются ими, чтобы принять решение или выполнить какую-либо операцию. Казалось бы, по завершении операции можно попрощаться с данными, однако зачастую этого не происходит. Данные все чаще сохраняют, отправляют в базы данных и там аккумулируют. То же самое происходит и с побочными или, как их еще называют, выхлопными данными (по аналогии с выхлопными газами), которые в дальнейшем помогают добиться лучшего понимания, усовершенствовать системы или восстановить картину событий, если что-то пошло не так. Черный ящик в самолете является классическим примером такого рода систем.

Выхлопные данные, описывающие людей, называются административными[13]. Особая сила административных данных заключается в том, что они сообщают не то, что люди говорят о своих действиях (как, например, в случае опросов), а то, что они делают на самом деле. Такие данные показывают, что люди купили, где они это купили, что они ели, какие поисковые запросы делали и т. д. Считается, что административные данные намного точнее демонстрируют реалии общества, чем ответы людей на вопросы об их действиях и поведении. Это привело к накоплению правительствами, корпорациями и рядом других организаций гигантских баз данных, описывающих наше поведение. Нет сомнения в том, что эти базы данных представляют собой очень ценный ресурс, настоящую золотую жилу в сфере знаний о человеческом поведении. Сделанные на их основе выводы помогут усовершенствовать процесс принятия решений, повысить корпоративную эффективность и лучше продумать государственную политику – конечно, при условии, что эти выводы будут точными и не подвергнутся влиянию темных данных. Кроме того, когда данные, которые мы хотели бы сохранить в темноте, становятся известны другим, возникают риски нарушения конфиденциальности. Мы вернемся к этому вопросу чуть дальше, а пока давайте поищем темные данные, причем в самых неожиданных местах.

Один из очевидных и очень серьезных недостатков административных данных кроется в самом их преимуществе: они сообщают о том, что на самом деле делают люди, а это может быть полезным только тогда, когда вы не пытаетесь исследовать, что люди думают и чувствуют. Например, своевременное обнаружение недовольства сотрудников тем, как идут дела, может быть не менее важным для корпорации, как и наблюдение за их поведением в жестких рамках повседневной работы, когда начальник буквально стоит за спиной. Но, чтобы узнать, что чувствуют люди, нам придется активно допытываться этого, например с помощью опроса. Для решения разных задач требуются и разные стратегии сбора данных, при этом каждая из них грозит своими особыми проблемами, связанными с темными данными.

Мое первое настоящее знакомство с темными данными состоялось в сфере банковских услуг для потребительского сектора: кредитные и дебетовые карты, персональные займы, автокредиты, ипотека и прочие подобные вещи. Данные о транзакциях по кредитным картам представляют собой гигантские наборы данных, поскольку миллионы клиентов ежегодно совершают миллиарды операций. Так, с июня 2014 г. по июнь 2015 г. было совершено около 35 млрд транзакций по картам Visa[14]. Каждый раз, когда покупка оплачивается кредитной картой, регистрируется потраченная сумма, валюта, продавец, дата и время транзакции, а также многие другие детали, общий список которых включает 70–80 пунктов. Большую часть этой информации составляют данные, необходимые для совершения транзакции и списывания суммы с соответствующего счета – это обязательная часть операции, поэтому пропуск таких деталей маловероятен или даже невозможен. Например, операция не может быть выполнена без информации о том, сколько взимать или с кого взимать. Но есть и такие данные, которые не критичны для проведения операции, поэтому существует вероятность того, что они не будут собраны. В частности, номер партии товара, его идентификационный код или цена за единицу не являются обязательной информацией для проведения транзакции. Очевидно, что это DD-тип 1: данные, о которых мы знаем, что они отсутствуют.

Что еще хуже, во всяком случае в отношении темных данных, клиенты рассчитываются за покупки не только кредитными картами, но и наличными. Это означает, что реестр всех покупок и транзакций, созданный на основе данных по кредитным картам, будет содержать невидимые массивы темных данных – DD-тип 4: самоотбор. Вдобавок существует несколько операторов кредитных карт. Данные одного оператора не могут считаться репрезентативными для всей совокупности держателей кредитных карт и уж тем более для населения в целом. Таким образом, несмотря на многообещающие перспективы, административные данные имеют скрытые недостатки, связанные с темными данными.

Конкретной проблемой, с которой мне пришлось столкнуться, был заказ на создание «системы показателей» – статистической модели для прогнозирования вероятности неплатежей, которая могла бы использоваться при принятии решений о предоставлении кредитов. Мне был открыт доступ к большому набору данных, содержащему информацию из заявок предыдущих клиентов, а также их кредитные истории, показывающие действительную картину того, платили они или нет по своим обязательствам.


Рекомендуем почитать
Капитализм в огне. Как сделать эффективную экономическую систему человечной

Может ли капитализм служить обществу или бизнес интересует лишь максимизация прибылей? Выдающийся гарвардский профессор Ребекка Хендерсон предложила переосмыслить экономическую систему, сделав ее более устойчивой и человечной. Хендерсон сформулировала пять элементов обновленного капитализма: создание общих ценностей, поиск смысла, перенастройка финансов, внутриотраслевое сотрудничество и пересмотр роли государства. Кардинальные изменения по этим пяти направлениям позволят, по мнению автора, предпринимателям процветать, а обществу – стремиться к социальной справедливости и подлинной демократии.


Политическая экономия капитализма

«Политическая экономия капитализма» — учебное пособие, охватывающее все темы курса политической экономии по разделу «Капиталистический способ производства», — написано по новой схеме. Автор отказался от расчленения политической экономии капитализма на две части — теорию домонополистического капитализма и теорию империализма. Считая необходимым изучать в курсе политической экономии современный капитализм, автор строит изложение таким образом, что общетеоретические проблемы и проблемы империализма рассматриваются не изолированно, а в органической связи.


Коммунизм и преодоление разделения между умственным и физическим трудом

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Стачка как бой

Предлагаемая читателю книга известного советского государственного деятеля А. Лозовского (1878–1952) посвящена вопросам тактики и стратегии стачечного движения. Задача книги — в максимально сжатой форме поставить основные проблемы стачечной тактики, указать на связь экономики с политикой, на необходимость использования богатейшего опыта экономической борьбы, на возможность применения в стачечном движении многих правил, установленных военной наукой, а также на связь между экономическими и политическими стачками, восстанием и борьбой за власть. Рекомендуется историкам, социологам, политологам, активистам профсоюзного движения, широкому кругу заинтересованных читателей. Источник книги находится по адресу https://work-way.com/literatura Книга ёфицирована.


Теория социальных систем. Том 5. Совершенствование финансово-кредитной системы Российской Федерации

Предлагаемое читателям специальное исследование посвящено вопросам совершенствования финансово-кредитной системы Российской Федерации в существующей экономической теории.В работе впервые изложены теоретико-методологические основы формирования, учета и использования показателей социальной эффективности для рациональной организации финансово-кредитной деятельности социальной направленности, оценки целесообразности инвестиционной политики и стратегии социально-экономического развития различных форм организации общества на современном этапе.


Агония либерализма

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.