Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - [12]

Шрифт
Интервал

По сути ничего сложного в этом заказе не было. Я должен был выяснить, какие сочетания характеристик отличают клиентов, выполнивших свои обязательства, от тех, кто допустил дефолт. Это позволило бы классифицировать будущих заявителей как «добросовестные заемщики» или «потенциальные неплательщики».

Проблема заключалась в том, что банк хотел получить модель, позволяющую делать прогнозы в отношении всех будущих заявителей. Предоставленные мне данные, безусловно, не были генеральной совокупностью, отражавшей всех заявителей – они касались лишь тех, кто уже прошел процесс отбора. Надо полагать, состоявшиеся клиенты получили кредиты, потому что им был присвоен статус приемлемого риска в соответствии с каким-то более ранним механизмом отбора – на основе либо предыдущей статистической модели, либо субъективной оценки менеджеров банка. Те, кого сочли слишком рискованными, не получили ссуду, поэтому я не мог знать о том, насколько добросовестно они выполнили бы свои обязательства. Я даже не имел понятия, сколько заявителей было отклонено ранее и не попало в мой набор данных. Короче говоря, данные, предоставленные мне, были искаженной выборкой с неизвестными критериями отбора (или смещением выборки), и любая статистическая модель, построенная на этом наборе данных, вводила бы в заблуждение в случае применения ко всем потенциальным кандидатам.

На самом деле проблема была еще глубже, поскольку имелось несколько слоев темных данных. Необходимо было учесть следующее.

● Кто подавал заявки? В прошлом банк проводил почтовые рассылки потенциальным клиентам, предлагая им взять кредит. Кто-то заинтересовался, кто-то никак не отреагировал. Банковские данные по таким рассылкам включали только тех, кто откликнулся на них сразу, и здесь приобретали значение такие факторы, как формулировка кредитного предложения, его сумма, процентная ставка, а также множество других, о которых я не был осведомлен. Те же, кто не ответил на рассылку, представляли собой темные данные.

● Кто получал предложение? Тех, кто откликнулся, банк оценивал с точки зрения платежеспособности и некоторым предлагал взять кредит, в то время как другим отказывал. Но, так как я не знал, на каких основаниях делались эти персональные предложения, темных данных становилось еще больше.

● Кто принимал предложение? Вдобавок к двум предыдущим процедурам отбора не все из тех, кому был предложен кредит, взяли его, и это породило еще один слой темных данных.

Вместе эти слои делали совершенно непонятным то, как можно использовать полученные от банка данные для решения поставленной задачи – создания модели оценки новых заявок. Несколько слоев темных данных могли означать, что имеющаяся у меня выборка со всеми известными хорошими/плохими исходами кардинально отличается от той совокупности, к которой банк хотел применить модель. А вы уже знаете, что игнорирование темных данных может иметь катастрофические последствия. (Впрочем, замечу, что банк все еще существует – видимо, моя модель оказалась не так уж плоха!)

Административные данные вездесущи. Только представьте себе все те базы данных, в которых хранится информация о вашем образовании, работе, здоровье, интересах, покупках, финансовых транзакциях, ипотеке, страховании, путешествиях, поисковых запросах, активности в социальных сетях и т. д. Вплоть до недавнего времени подобные данные сохранялись автоматически, без вашего ведома и учета мнения. Общий регламент по защите данных Евросоюза (GDPR) изменил ситуацию – теперь, как вы наверняка заметили, сайты просят вас поставить галочки, подтверждающие, что вы осознанно даете разрешение на использование персональных данных. Встречаются и другие способы давать или не давать свое согласие, например в США, где конфиденциальность персональных данных регулируется как федеральными законами, так и законами штатов, в зависимости от сектора экономики.

В 2013 г. Национальная служба здравоохранения Великобритании (NHS) запустила программу, предполагающую ежемесячное копирование медицинских данных из отчетов семейных врачей и объединение их с учетными записями больниц в Национальном информационном центре здравоохранения и социальной защиты (HSCIC). Потенциальная ценность таких объединенных наборов данных огромна. Собрав информацию о состоянии здоровья и методах лечения миллионов людей, мы сможем извлекать данные, чтобы лучше не только изучать сами заболевания и пути повышения качества их профилактики, мониторинга и эффективности лечения, но и понимать, насколько эффективна система медицинской помощи в целом и где ее необходимо усовершенствовать. Конфиденциальность при этом обеспечивается системой псевдонимизации, в которой имена, номер медицинской страховки и другие идентификаторы заменяются кодом, а коды сохраняются в файле, никак не связанном с фактическими данными.

К сожалению, эта система – и ее потенциальные выгоды для здоровья и медицины – была плохо представлена общественности. Многих беспокоила возможность продажи их данных третьим сторонам (например, фармацевтическим и страховым компаниям), которые будут использовать информацию для получения прибыли. Другие опасались потери и взлома данных, а также того, что их данные могут быть


Рекомендуем почитать
Экономика предприятия

Содержит основные вопросы учебной программы курса «Экономика организаций (предприятий)». Раскрываются экономические основы функционирования предприятия в условиях рынка, ресурсы предприятия и показатели их использования, экономические показатели деятельности предприятия (издержки, финансовые результаты, ценообразование), излагаются вопросы планирования и управления качеством на предприятии.Отвечает требованиям Федерального государственного образовательного стандарта, а также содержанию Примерной основной образовательной программы подготовки бакалавров по профилю «Экономика предприятий и организаций».Для студентов бакалавриата, обучающихся по направлению 080100 «Экономика».


Северный Кавказ. Модернизационный вызов

В книге дается представление авторов об экономике Северного Кавказа, существенно отличающееся от общепризнанного. Под вопрос ставятся многие сложившиеся мифы и стереотипы – тотальная депрессивность; масштабы безработицы и бедности; наличие барьеров, полностью исключающих модернизацию; дефицит финансовых средств как основная причина недостаточного экономического развития. Формулируются базовые принципы регионального развития, альтернативные традиционно принятым в северокавказской политике, предлагаются меры по их реализации.


Инновационная экономика. Дорожная карта – 2040

На день сегодняшний перед вами самая необычная и еретическая книга по экономике в России и в мире. Два дерзких профессора из Стокгольма создали в 1999 г. книгу-предтечу «Бизнес в стиле фанк», но не посмели выйти «за околицу», к океану новых знаний. А мы рискнули! Беремся это доказать, ибо предлагаем за 15–20 лет уйти от денежного обращения и золотого стандарта. В работе – варианты конкретных проектов и концепций. Дана корректная оценка земле Русской и «брошен якорь в будущее». Дана концепция матрицы нового социального уклада.


Экономический кризис и перспективы развития капитализма

Вопреки дифирамбам французских энциклопедистов, а также мнению многих деятелей науки и культуры, живших в разные времена и считающих человека венцом творения, homo sapiens сам по себе не является идеальным и, к сожалению, все больше отдаляется от библейских стандартов. В наше время охваченные страстью потребительства люди далеко не всегда сознают, что творят. Ведь и современный кризис, как известно, стал следствием циничного прагматизма, а точнее, превысившей все пределы элементарной человеческой жадности руководителей банковских корпораций, которые в погоне за прибылью безответственно предоставили кредиты неспособным к их оплате потребителям.


Обеспечение информационной безопасности бизнеса

Данную книгу можно назвать практической энциклопедией. В ней дан максимальный охват проблематики обеспечения информационной безопасности, начиная с современных подходов, обзора нормативного обеспечения в мире и в России и заканчивая рассмотрением конкретных направлений обеспечения информационной безопасности (обеспечение ИБ периметра, противодействие атакам, мониторинг ИБ, виртуальные частные сети и многие другие), конкретных аппаратно-программных решений в данной области. Книга будет полезна бизнес-руководителям компаний и тем, в чью компетенцию входит решение технических вопросов обеспечения информационной безопасности.Все права защищены.


Антикризисная книга Коммерсантъ'a

В этой книге авторы пытаются показать, как возник и развивается кризис и как реагируют на него государство, предприниматели и простые люди. Кому-то это поможет разобраться в происходящем, кому-то – понять, почему привычный мир оказался таким неустойчивым.Ожидание ужаса сильнее самого ужаса. И есть основания полагать, что если нефтяные цены и уровень зарплаты к осени не восстановятся (похоже, что так), к сентябрю-октябрю 2009 года новые правила не только оформятся, но станут понятны всем. А это означает, что в нашей жизни вновь появится определенность и предсказуемость, и мы – в очередной раз – прорвемся.Эта книга – хроника развертывания кризиса в российской экономике с сентября по ноябрь 2008 года, написанная на основе публикаций в газете «Коммерсантъ» и журналах «Деньги», «Власть» и «Секрет фирмы».