Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - [3]

Шрифт
Интервал

, однако я намеренно не пытался перечислить все возможные места существования темных данных – в этой книге такой подход был бы излишним.

Давайте перейдем к одному из таких примеров. В медицине понятие «травма» означает повреждение с возможными долговременными последствиями. Травмы являются одной из наиболее серьезных причин сокращения продолжительности жизни и инвалидности, а также самой распространенной причиной гибели людей в возрасте до 40 лет. Компьютерная база данных TARN является самой большой медицинской базой данных о травмах в Европе. В нее стекаются данные о полученных травмах из более чем 200 больниц, в числе которых 93 % всех больниц Англии и Уэльса, а также больницы в Ирландии, Нидерландах и Швейцарии. Безусловно, это очень большой объем данных для прогнозирования и изучения эффективности медицинского вмешательства при травмах.

Доктор Евгений Миркес и его коллеги из Лестерского университета в Великобритании провели исследование этой базы данных и выяснили: из 165 559 зарегистрированных травм исход 19 289 случаев оказался неизвестным[4]. «Исход» в данном случае определяется тем, выживает пациент или нет в течение 30 дней после травмы. Иначе говоря, 30-дневная выживаемость неизвестна для более чем 11 % пациентов. Этот пример иллюстрирует распространенную форму темных данных – DD-тип 1: данные, о которых мы знаем, что они отсутствуют. Иначе говоря, нам известно, что травмы у этих пациентов чем-то закончились, – мы просто не знаем, чем именно.

Можно, конечно, сказать: «Нет проблем, давайте просто проанализируем 146 270 пациентов, для которых исход известен, и будем делать выводы и прогнозы на основе этой информации». В конце концов, 146 270 тоже немало – в сфере медицины это уже большие данные. Поэтому мы можем смело утверждать, что понимание, основанное на этих данных, будет верным.

Но так ли это на самом деле? Возможно, 19 289 недостающих случаев сильно отличаются от других. В конце концов, их необычность уже в самой неизвестности исхода, так почему же они не могут отличаться и чем-то другим? Как следствие, анализ 146 270 пациентов с известными исходами может быть ошибочным по отношению к общей совокупности пациентов с травмами. Таким образом, действия, предпринимаемые на основе подобного анализа, могут быть в корне неверными и привести к ошибочным прогнозам, ложным предписаниям и несоответствующим режимам лечения с неблагоприятными и даже фатальными последствиями для пациентов.

Давайте возьмем нарочито неправдоподобную, крайнюю ситуацию: предположим, что все 146 270 человек с известными исходами выжили и выздоровели без лечения, а 19 289 с неизвестными исходами умерли в течение двух дней после обращения в больницу. Если бы мы игнорировали последних, то неизбежно пришли бы к выводу, что беспокоиться не о чем – ведь все пациенты с травмами выздоравливают сами собой. Исходя из этого, мы бы просто не стали их лечить, ожидая естественного выздоровления. И вскоре были бы шокированы и озадачены тем фактом, что более 11 % пациентов умерли.

Прежде чем продолжить, я должен вас успокоить – в реальности все обстоит не так уж плохо. Во-первых, приведенный выше сценарий действительно наихудший из возможных, а во-вторых, доктор Миркес и его коллеги являются экспертами по анализу недостающих данных. Они прекрасно осознают опасность и разрабатывают статистические методы решения проблемы, о которых мы поговорим позже. Я привел такой ужасающий пример лишь для того, чтобы показать: вещи могут быть не такими, какими кажутся. В самом деле, если бы мне нужно было сформулировать основную идею этой книги, она бы, пожалуй, звучала примерно так: хотя иметь много данных полезно, большие данные, то есть объем, – это еще далеко не все. И то, чего вы не знаете, те данные, которых у вас нет, могут быть важнее для понимания происходящего, чем те, которыми вы располагаете. Во всяком случае, как мы увидим дальше, проблемы темных данных – это не только проблемы больших данных: они характерны и для малых наборов данных. Они вездесущи.

Пример с базой данных TARN, конечно, преувеличен, но он служит предупреждением. Возможно, результаты 19 289 пациентов не были зарегистрированы именно потому, что все они умерли в течение 30 дней. Ведь если исход заносился в базу на основании опроса пациентов через 30 дней после обращения, чтобы оценить их состояние, то никто из умерших просто не ответил на вопросы. Если бы мы не допускали возможность этого, то никогда бы не фиксировали смерть таких пациентов.

На первый взгляд это кажется нелепым, но в реальности такие ситуации возникают довольно часто. Допустим, модель прогнозирования эффективности того или иного лечения основывается на результатах предыдущих пациентов, которые получали такое лечение. Но что, если время лечения предыдущих пациентов было недостаточным для достижения результата? Тогда для некоторых из них конечный исход окажется неизвестен, а модель, построенная только на известных результатах, будет вводить в заблуждение.

Похожая ситуация возникает и с опросами, когда отсутствие ответов становится источником затруднений. Исследователи обычно имеют некий идеальный список людей, от которых они хотели бы получить ответы, но, как правило, отвечают не все. Если все те, кто отвечает, каким-то образом отличаются от тех, кто этого не делает, то у исследователей появляется основание усомниться в достоверности статистической сводки для данной группы населения. В конце концов, если бы некий журнал затеял опрос своих подписчиков, задав им единственный вопрос: «Отвечаете ли вы на журнальные опросы?», тот факт, что 100 % ответивших скажут «да», еще не говорил бы о том, что все подписчики отвечают на подобные опросы.


Рекомендуем почитать
Золото в период мировых войн

Монография, посвященная положению золота на международной арене в первую и вторую мировые войны. Для изучающих экономическую и военно-экономическую историю.


Капитал. Полная квинтэссенция 3-х томов

«Капитал» – главный труд немецкого экономиста и политического деятеля Карла Маркса, несомненно, оказавший влияние на мировую историю. Данное издание – это основные положения и идеи содержащиеся в «Капитале», обработанные немецким экономистом и политиком Ю. Борхардтом. Как отмечает сам Борхардт, ему «удалось передать теорию учения в правильной форме», что «дает ключ непосвященному или новичку к ее пониманию». Книга будет интересна как специалистам, так и всем интересующимся вопросами социально-экономических теорий.


Urban Express

Эта книга – манифест урбанизации, которая подчинила себе и фанки-бизнес, и караоке-капитализм. Уже совсем скоро две трети населения Земли будет жить в городах, а вместо 219 стран формировать мировую экономику и политику будут 600 мегаполисов. Известный экономист Кьелл Нордстрем и один из выдающихся лекторов Швеции экс-политик Пер Шлингман заявляют: национальных государств скоро не будет. Они рассказывают о последствиях «интернетофикации», ценности диких знаний (тех, которые невозможно оцифровать) и каминг-ауте женщин, которые все активнее отстаивают свое место под солнцем: сегодня – образование, завтра – деньги и власть.


Изощренный механизм эксплуатации

В книге раскрывается сущность и формы, а также причины изменения современных капиталистических методов эксплуатации трудящихся в условиях HTP, построенных на выжимании все большей прибыли из квалификации, интеллектуальных сил и нервной энергии работников. Особое внимание уделено современным методам управления персоналом: осуществлению надзора и налаживанию «человеческих отношений», повышению качества «трудовой жизни», «гуманизации труда», влиянию роста эксплуатации на положение и здоровье трудящихся. Для широкого круга читателей.


Проложите "трубопровод", по которому потекут деньги

Книга о том, как во времена новой общественно-экономической формации каждый может проложить свой собственный "финансовый трубопровод"; как выбрать правильную стратегию и создавать множественные источники пассивного дохода.


Как богатые страны стали богатыми, и почему бедные страны остаются бедными

В настоящей книге известный норвежский экономист Эрик Райнерт показывает, что богатые страны стали богатыми благодаря сочетанию государственного вмешательства, протекционизма и стратегических инвестиций, а не благодаря свободной торговле. По утверждению автора, именно такая политика была залогом успешного экономического развития, начиная с Италии эпохи Возрождения и заканчивая сегодняшними странами Юго-Восточной Азии. Показывая, что современные экономисты игнорируют этот подход, настаивая и на важности свободной торговли, Райнерт объясняет это ним расколом в экономической науке между континентально-европейской традицией, ориентированной на комплексную государственную политику, с одной стороны, и англо-американской, ориентированной на свободную торговлю, — с другой. Написанная доступным языком, книга представляет интерес не только для специалистов по экономической истории и теории, но и для широкого круга читателей. Перевод с английского How Rich Countries Got Rich… and Why Poor Countries Stay Poor by Erik S.