Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - [3]
Давайте перейдем к одному из таких примеров. В медицине понятие «травма» означает повреждение с возможными долговременными последствиями. Травмы являются одной из наиболее серьезных причин сокращения продолжительности жизни и инвалидности, а также самой распространенной причиной гибели людей в возрасте до 40 лет. Компьютерная база данных TARN является самой большой медицинской базой данных о травмах в Европе. В нее стекаются данные о полученных травмах из более чем 200 больниц, в числе которых 93 % всех больниц Англии и Уэльса, а также больницы в Ирландии, Нидерландах и Швейцарии. Безусловно, это очень большой объем данных для прогнозирования и изучения эффективности медицинского вмешательства при травмах.
Доктор Евгений Миркес и его коллеги из Лестерского университета в Великобритании провели исследование этой базы данных и выяснили: из 165 559 зарегистрированных травм исход 19 289 случаев оказался неизвестным[4]. «Исход» в данном случае определяется тем, выживает пациент или нет в течение 30 дней после травмы. Иначе говоря, 30-дневная выживаемость неизвестна для более чем 11 % пациентов. Этот пример иллюстрирует распространенную форму темных данных – DD-тип 1: данные, о которых мы знаем, что они отсутствуют. Иначе говоря, нам известно, что травмы у этих пациентов чем-то закончились, – мы просто не знаем, чем именно.
Можно, конечно, сказать: «Нет проблем, давайте просто проанализируем 146 270 пациентов, для которых исход известен, и будем делать выводы и прогнозы на основе этой информации». В конце концов, 146 270 тоже немало – в сфере медицины это уже большие данные. Поэтому мы можем смело утверждать, что понимание, основанное на этих данных, будет верным.
Но так ли это на самом деле? Возможно, 19 289 недостающих случаев сильно отличаются от других. В конце концов, их необычность уже в самой неизвестности исхода, так почему же они не могут отличаться и чем-то другим? Как следствие, анализ 146 270 пациентов с известными исходами может быть ошибочным по отношению к общей совокупности пациентов с травмами. Таким образом, действия, предпринимаемые на основе подобного анализа, могут быть в корне неверными и привести к ошибочным прогнозам, ложным предписаниям и несоответствующим режимам лечения с неблагоприятными и даже фатальными последствиями для пациентов.
Давайте возьмем нарочито неправдоподобную, крайнюю ситуацию: предположим, что все 146 270 человек с известными исходами выжили и выздоровели без лечения, а 19 289 с неизвестными исходами умерли в течение двух дней после обращения в больницу. Если бы мы игнорировали последних, то неизбежно пришли бы к выводу, что беспокоиться не о чем – ведь все пациенты с травмами выздоравливают сами собой. Исходя из этого, мы бы просто не стали их лечить, ожидая естественного выздоровления. И вскоре были бы шокированы и озадачены тем фактом, что более 11 % пациентов умерли.
Прежде чем продолжить, я должен вас успокоить – в реальности все обстоит не так уж плохо. Во-первых, приведенный выше сценарий действительно наихудший из возможных, а во-вторых, доктор Миркес и его коллеги являются экспертами по анализу недостающих данных. Они прекрасно осознают опасность и разрабатывают статистические методы решения проблемы, о которых мы поговорим позже. Я привел такой ужасающий пример лишь для того, чтобы показать: вещи могут быть не такими, какими кажутся. В самом деле, если бы мне нужно было сформулировать основную идею этой книги, она бы, пожалуй, звучала примерно так: хотя иметь много данных полезно, большие данные, то есть объем, – это еще далеко не все. И то, чего вы не знаете, те данные, которых у вас нет, могут быть важнее для понимания происходящего, чем те, которыми вы располагаете. Во всяком случае, как мы увидим дальше, проблемы темных данных – это не только проблемы больших данных: они характерны и для малых наборов данных. Они вездесущи.
Пример с базой данных TARN, конечно, преувеличен, но он служит предупреждением. Возможно, результаты 19 289 пациентов не были зарегистрированы именно потому, что все они умерли в течение 30 дней. Ведь если исход заносился в базу на основании опроса пациентов через 30 дней после обращения, чтобы оценить их состояние, то никто из умерших просто не ответил на вопросы. Если бы мы не допускали возможность этого, то никогда бы не фиксировали смерть таких пациентов.
На первый взгляд это кажется нелепым, но в реальности такие ситуации возникают довольно часто. Допустим, модель прогнозирования эффективности того или иного лечения основывается на результатах предыдущих пациентов, которые получали такое лечение. Но что, если время лечения предыдущих пациентов было недостаточным для достижения результата? Тогда для некоторых из них конечный исход окажется неизвестен, а модель, построенная только на известных результатах, будет вводить в заблуждение.
Похожая ситуация возникает и с опросами, когда отсутствие ответов становится источником затруднений. Исследователи обычно имеют некий идеальный список людей, от которых они хотели бы получить ответы, но, как правило, отвечают не все. Если все те, кто отвечает, каким-то образом отличаются от тех, кто этого не делает, то у исследователей появляется основание усомниться в достоверности статистической сводки для данной группы населения. В конце концов, если бы некий журнал затеял опрос своих подписчиков, задав им единственный вопрос: «Отвечаете ли вы на журнальные опросы?», тот факт, что 100 % ответивших скажут «да», еще не говорил бы о том, что все подписчики отвечают на подобные опросы.
“Была Прибалтика – стала Прое#алтика”, – такой крепкой поговоркой спустя четверть века после распада СССР описывают положение дел в своих странах жители независимых Литвы, Латвии и Эстонии. Регион, который считался самым продвинутым и успешным в Советском Союзе, теперь превратился в двойную периферию. России до Прибалтики больше нет дела – это не мост, который мог бы соединить пространство между Владивостоком и Лиссабоном, а геополитический буфер. В свою очередь и в «большой» Европе от «бедных родственников» не в восторге – к прибалтийским странам относятся как к глухой малонаселенной окраине на восточной границе Евросоюза с сильно запущенными внутренними проблемами и фобиями.
В книге дается представление авторов об экономике Северного Кавказа, существенно отличающееся от общепризнанного. Под вопрос ставятся многие сложившиеся мифы и стереотипы – тотальная депрессивность; масштабы безработицы и бедности; наличие барьеров, полностью исключающих модернизацию; дефицит финансовых средств как основная причина недостаточного экономического развития. Формулируются базовые принципы регионального развития, альтернативные традиционно принятым в северокавказской политике, предлагаются меры по их реализации.
На день сегодняшний перед вами самая необычная и еретическая книга по экономике в России и в мире. Два дерзких профессора из Стокгольма создали в 1999 г. книгу-предтечу «Бизнес в стиле фанк», но не посмели выйти «за околицу», к океану новых знаний. А мы рискнули! Беремся это доказать, ибо предлагаем за 15–20 лет уйти от денежного обращения и золотого стандарта. В работе – варианты конкретных проектов и концепций. Дана корректная оценка земле Русской и «брошен якорь в будущее». Дана концепция матрицы нового социального уклада.
Вопреки дифирамбам французских энциклопедистов, а также мнению многих деятелей науки и культуры, живших в разные времена и считающих человека венцом творения, homo sapiens сам по себе не является идеальным и, к сожалению, все больше отдаляется от библейских стандартов. В наше время охваченные страстью потребительства люди далеко не всегда сознают, что творят. Ведь и современный кризис, как известно, стал следствием циничного прагматизма, а точнее, превысившей все пределы элементарной человеческой жадности руководителей банковских корпораций, которые в погоне за прибылью безответственно предоставили кредиты неспособным к их оплате потребителям.
Данную книгу можно назвать практической энциклопедией. В ней дан максимальный охват проблематики обеспечения информационной безопасности, начиная с современных подходов, обзора нормативного обеспечения в мире и в России и заканчивая рассмотрением конкретных направлений обеспечения информационной безопасности (обеспечение ИБ периметра, противодействие атакам, мониторинг ИБ, виртуальные частные сети и многие другие), конкретных аппаратно-программных решений в данной области. Книга будет полезна бизнес-руководителям компаний и тем, в чью компетенцию входит решение технических вопросов обеспечения информационной безопасности.Все права защищены.
В этой книге авторы пытаются показать, как возник и развивается кризис и как реагируют на него государство, предприниматели и простые люди. Кому-то это поможет разобраться в происходящем, кому-то – понять, почему привычный мир оказался таким неустойчивым.Ожидание ужаса сильнее самого ужаса. И есть основания полагать, что если нефтяные цены и уровень зарплаты к осени не восстановятся (похоже, что так), к сентябрю-октябрю 2009 года новые правила не только оформятся, но станут понятны всем. А это означает, что в нашей жизни вновь появится определенность и предсказуемость, и мы – в очередной раз – прорвемся.Эта книга – хроника развертывания кризиса в российской экономике с сентября по ноябрь 2008 года, написанная на основе публикаций в газете «Коммерсантъ» и журналах «Деньги», «Власть» и «Секрет фирмы».