Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - [13]

Шрифт
Интервал

, что нарушило бы конфиденциальность в сфере медицинских вопросов. В результате был получен негативный общественный резонанс, усиленный отдельными СМИ. И это даже несмотря на то, что система позволяла людям отказаться от передачи их данных куда бы то ни было.

В феврале 2014 г. программа была приостановлена. После ряда неудачных попыток перезапуска в июле 2016 г. был опубликован ее расширенный пересмотренный вариант, в котором рекомендовалась модель согласия пациента на использование персональных данных, включавшая восемь пунктов. Одна из особенностей нового варианта заключалась в том, что она давала людям возможность запретить использование их данных для целей, выходящих за рамки медицинской помощи, например для проведения исследований.

Если до этого момента вы читали внимательно, то, вероятно, заметите скрывающуюся здесь опасность. Из-за разрешения отказывать в использовании информации для исследований базы данных перестают быть всеобъемлющими. В них будет содержаться информация только о части пациентов. Хуже того, поскольку люди сами выбирают, давать или не давать свои данные (DD-тип 4: самоотбор), велик риск того, что базы данных покажут искаженную картину всей совокупности.

В 2009 г. Мишель Хо и ее коллеги из Университета Макмастера в Канаде изучили эту проблему[15]. Они провели метаанализ исследований влияния информированного согласия на использование данных с точки зрения того, какие именно люди дают такое согласие. Сравнив согласных и несогласных по возрасту, полу, расовой принадлежности, образованию, доходу и состоянию здоровья, они обнаружили, что две группы действительно отличались друг от друга. Но еще большую тревогу вызвал тот факт, что «направленность и масштаб этого эффекта оказались непостоянными». Это означает, что согласные и несогласные не просто отличаются друг от друга, а отличаются непредсказуемым образом, что делает крайне затруднительной корректировку отличий.

Отказ от участия – иначе говоря, предоставление людям права не быть включенными в базу данных – требует от них по меньшей мере некоторых усилий. В такой ситуации многие просто ленятся что-то делать, принимают установки по умолчанию и потому попадают в базы данных. Потенциально более строгая альтернатива отбора подразумевает приложение усилий уже для включения в базу данных. В этом случае врожденная лень, наоборот, может сделать только хуже: требовать от людей каких-то действий – верный способ уменьшить число откликов.

В примере с медицинскими картами фигурируют четко оформленные административные данные, но иногда мы имеем дело с вещами менее очевидными. С такими, например, как сброшенные звонки в службу экстренной помощи.

Сброшенным считается такой вызов, когда кто-то производит набор номера экстренной службы, но вешает трубку или как-то иначе прерывает звонок, прежде чем ответит оператор. В сентябре 2017 г. BBC на своем сайте сообщила, что за год, начиная с июня 2016 г., количество сброшенных вызовов в диспетчерские британской полиции выросло вдвое: с 8000 до 16 300[16]. Существуют разные теории о том, почему это происходит. Например, одна из них утверждает, что полиция перегружена звонками и поэтому операторам требуется слишком много времени, чтобы принять очередной вызов. Другая теория гласит, что причина заключается в случайном нажатии телефонных кнопок в кармане или сумочке, что автоматически генерирует такие вызовы.

Если бы эта последняя теория действительно все объясняла, можно было бы ожидать, что проблема не возникнет или по крайней мере не будет столь острой в Соединенных Штатах, где для набора номера экстренного вызова 911 используются две разные цифры, в отличие от 999 в Великобритании. Однако частота таких звонков увеличивается и в Америке. Данные Центра экстренной связи Линкольна за три месяца показывают, что число сброшенных звонков с апреля по июнь 2013 г. увеличилось с 0,92 до 3,47 %.

Сброшенные звонки – яркий пример темных данных DD-тип 1: данные, о которых мы знаем, что они отсутствуют. Не менее яркий пример темных данных DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, был приведен Майком Джонстоном, редактором сайта The Online Photographer[17]. В своей редакторской колонке он пишет: «Всякий раз, когда я читаю описание бревенчатых хижин времен освоения Дикого Запада как хорошо сработанных, добротных и красивых построек, я тихонько посмеиваюсь. Ведь, скорее всего, 99,9 % срубов того времени были построены просто ужасно – поэтому они все и развалились. Те немногие, что сохранились в первозданном виде, были действительно сделаны неплохо. Но это не значит, что все хижины были такими». Поскольку не осталось никаких документальных свидетельств об этих развалившихся бревенчатых хижинах, мы имеем дело с темными данными.

DD-тип 2: данные, о которых мы не знаем, что они отсутствуют, особенно обманчив, потому что у нас, как правило, нет оснований подозревать существование таких данных. Допустим, вы читаете лондонскую The Times от 29 декабря 2017 г. и, так же как и я, узнаете, что, «по данным полиции, число сексуальных домогательств, предположительно совершенных водителями такси по отношению к пассажирам, возросло на одну пятую за три года». Объяснение, лежащее на поверхности, состоит в том, что совершается все больше подобных правонарушений. Но есть и другое объяснение, вытекающее из темных данных: число совершенных преступлений не меняется, зато растет число сообщений о них. Темные данные, которые были до этого скрыты, становятся видимыми в результате изменения нравов и общественных норм. Отсюда следует важный вывод общего характера: если мы видим внезапное изменение шага во временном ряду значений, это может быть связано не только с тем, что поменялись параметры наблюдаемой реальности, но и с тем, что изменилась сама процедура сбора данных. Это также проявление темных данных


Рекомендуем почитать
Экономика предприятия

Содержит основные вопросы учебной программы курса «Экономика организаций (предприятий)». Раскрываются экономические основы функционирования предприятия в условиях рынка, ресурсы предприятия и показатели их использования, экономические показатели деятельности предприятия (издержки, финансовые результаты, ценообразование), излагаются вопросы планирования и управления качеством на предприятии.Отвечает требованиям Федерального государственного образовательного стандарта, а также содержанию Примерной основной образовательной программы подготовки бакалавров по профилю «Экономика предприятий и организаций».Для студентов бакалавриата, обучающихся по направлению 080100 «Экономика».


Северный Кавказ. Модернизационный вызов

В книге дается представление авторов об экономике Северного Кавказа, существенно отличающееся от общепризнанного. Под вопрос ставятся многие сложившиеся мифы и стереотипы – тотальная депрессивность; масштабы безработицы и бедности; наличие барьеров, полностью исключающих модернизацию; дефицит финансовых средств как основная причина недостаточного экономического развития. Формулируются базовые принципы регионального развития, альтернативные традиционно принятым в северокавказской политике, предлагаются меры по их реализации.


Инновационная экономика. Дорожная карта – 2040

На день сегодняшний перед вами самая необычная и еретическая книга по экономике в России и в мире. Два дерзких профессора из Стокгольма создали в 1999 г. книгу-предтечу «Бизнес в стиле фанк», но не посмели выйти «за околицу», к океану новых знаний. А мы рискнули! Беремся это доказать, ибо предлагаем за 15–20 лет уйти от денежного обращения и золотого стандарта. В работе – варианты конкретных проектов и концепций. Дана корректная оценка земле Русской и «брошен якорь в будущее». Дана концепция матрицы нового социального уклада.


Экономический кризис и перспективы развития капитализма

Вопреки дифирамбам французских энциклопедистов, а также мнению многих деятелей науки и культуры, живших в разные времена и считающих человека венцом творения, homo sapiens сам по себе не является идеальным и, к сожалению, все больше отдаляется от библейских стандартов. В наше время охваченные страстью потребительства люди далеко не всегда сознают, что творят. Ведь и современный кризис, как известно, стал следствием циничного прагматизма, а точнее, превысившей все пределы элементарной человеческой жадности руководителей банковских корпораций, которые в погоне за прибылью безответственно предоставили кредиты неспособным к их оплате потребителям.


Обеспечение информационной безопасности бизнеса

Данную книгу можно назвать практической энциклопедией. В ней дан максимальный охват проблематики обеспечения информационной безопасности, начиная с современных подходов, обзора нормативного обеспечения в мире и в России и заканчивая рассмотрением конкретных направлений обеспечения информационной безопасности (обеспечение ИБ периметра, противодействие атакам, мониторинг ИБ, виртуальные частные сети и многие другие), конкретных аппаратно-программных решений в данной области. Книга будет полезна бизнес-руководителям компаний и тем, в чью компетенцию входит решение технических вопросов обеспечения информационной безопасности.Все права защищены.


Антикризисная книга Коммерсантъ'a

В этой книге авторы пытаются показать, как возник и развивается кризис и как реагируют на него государство, предприниматели и простые люди. Кому-то это поможет разобраться в происходящем, кому-то – понять, почему привычный мир оказался таким неустойчивым.Ожидание ужаса сильнее самого ужаса. И есть основания полагать, что если нефтяные цены и уровень зарплаты к осени не восстановятся (похоже, что так), к сентябрю-октябрю 2009 года новые правила не только оформятся, но станут понятны всем. А это означает, что в нашей жизни вновь появится определенность и предсказуемость, и мы – в очередной раз – прорвемся.Эта книга – хроника развертывания кризиса в российской экономике с сентября по ноябрь 2008 года, написанная на основе публикаций в газете «Коммерсантъ» и журналах «Деньги», «Власть» и «Секрет фирмы».