Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - [6]

Шрифт
Интервал

. Я приведу два моих любимых примера, похожих и в то же время несопоставимых по своему масштабу.

Первый – известная карикатура, на которой изображен человек, стоящий перед большой картой, какие обычно висят на вокзалах. В центре карты находится красная точка с надписью «Вы здесь». «Как?! – думает потрясенный человек. – Как они узнали это?» Они узнали, потому что отталкивались от простого факта, что каждый, кто смотрит на эту красную точку, должен находиться непосредственно перед ней. Мы имеем дело с очень узкой выборкой, отсекающей всех, кто находится в другом месте.

Данные могут быть собраны, только если имеется кто-то или что-то для их сбора, например измерительный прибор. Второй пример самоотбора связан с антропным принципом, который, по сути, говорит, что Вселенная должна быть такой, какая она есть, а иначе нас бы просто не существовало и мы бы не смогли наблюдать ее. У нас нет данных из разных вселенных по одной простой причине – мы там не были. Это означает, что любые выводы, которые мы делаем, неизбежно ограничиваются нашей Вселенной (а точнее, вселенными такого же типа): как и в случае с бостонскими выбоинами, может происходить масса всего, о чем мы не знаем.

Из этого примера наука может извлечь для себя важный урок. Теория может идеально согласовываться с данными, но сами данные имеют ограничения. И это относится не только к сверхвысоким температурам, геологическим эпохам или космическим расстояниям. Если вы экстраполируете теорию за пределы, в которых были собраны данные, то всегда есть вероятность того, что она окажется недействительной. Экономические теории, основанные на данных, собранных в период процветания, часто оказываются несостоятельными во время рецессии, а законы Ньютона работают только тогда, когда речь не идет о крошечных объектах, высоких скоростях и прочих крайностях. В этом и заключается суть темных данных DD-тип 15: экстраполяция за пределы ваших данных.

У меня есть классная футболка от сайта веб-комиксов xkcd.com, на которой общаются два персонажа. Один говорит: «Раньше я думал, что корреляция подразумевает причинность». В следующем кадре он продолжает: «Потом я прошел курс статистики, и теперь я в этом не уверен». Другой персонаж говорит ему: «Похоже, курс помог», а первый отвечает: «Возможно, но не факт»[7].

Корреляция просто показывает, что две вещи меняются синхронно, например положительная корреляция означает, что когда одно становится большим, то и другое увеличивается, а когда первое уменьшается, то и второе поступает точно так же. Это в корне отличается от причинно-следственной связи. Говорят, что одно становится причиной другого, если изменения первого приводят к изменениям второго. Но проблема в том, что две вещи могут изменяться вместе, но при этом изменения одной не являются причиной изменений другой. Например, наблюдения в начальной школе показывают, что дети с более значительным словарным запасом в среднем выше. Но вряд ли вам придет в голову, что причиной этого являются родители, которые, желая иметь более рослое потомство, нанимают репетиторов для расширения словарного запаса своих детей. Намного вероятнее, что существуют какие-то темные данные, третий фактор, который объясняет корреляцию, например разный возраст детей. Когда персонаж на моей майке говорит «Возможно, но не факт», он признает, что пройденный курс статистики мог изменить его понимание, но при этом допускает наличие и других причин. Далее в книге мы еще столкнемся с поразительными примерами темных данных этого типа, а именно с DD-типом 5: неизвестный определяющий фактор.

Существуют и другие типы темных данных, о которых мы будем говорить. Напомню, что цель этой книги – рассказать о существующей на сегодня классификации темных данных, объяснить способы их идентификации, наглядно продемонстрировать оказываемое ими влияние и показать пути решения проблем, которые они вызывают, а также то, как темные данные можно использовать. Список типов темных данных приводится в конце этой главы, а краткое описание каждого из них вы найдете в главе 10.

Не было ничего необычного, поэтому мы не придали этому значения

Следующий пример служит иллюстрацией того, что темные данные могут иметь катастрофические последствия и что они не являются специфической проблемой больших наборов данных.

28 января 1986 г. на 73-й секунде полета на высоте около 15 км космический челнок Challenger превратился в гигантский огненный шар в результате неисправности ракеты-носителя. Отсек с экипажем какое-то время еще продолжал двигаться по восходящей траектории, достиг отметки 19 км и рухнул в Атлантику. Все семь членов экипажа погибли.

Впоследствии президентская комиссия установила, что руководители среднего звена NASA нарушили правила безопасности, требующие передачи данных по цепочке управления. Все объяснялось экономическими причинами: необходимо было уложиться в график, ведь дата старта уже переносилась с 22-го на 23-е, потом на 25-е, а затем и на 26 января. Поскольку прогноз погоды на этот день обещал неприемлемо низкую температуру, запуск снова отложили на день. Обратный отсчет прошел нормально, индикаторы показали, что замок люка закрылся должным образом. Однако к тому моменту поднялся сильный ветер, и запуск шаттла вновь пришлось отложить.


Рекомендуем почитать
Задворки Европы. Почему умирает Прибалтика

“Была Прибалтика – стала Прое#алтика”, – такой крепкой поговоркой спустя четверть века после распада СССР описывают положение дел в своих странах жители независимых Литвы, Латвии и Эстонии. Регион, который считался самым продвинутым и успешным в Советском Союзе, теперь превратился в двойную периферию. России до Прибалтики больше нет дела – это не мост, который мог бы соединить пространство между Владивостоком и Лиссабоном, а геополитический буфер. В свою очередь и в «большой» Европе от «бедных родственников» не в восторге – к прибалтийским странам относятся как к глухой малонаселенной окраине на восточной границе Евросоюза с сильно запущенными внутренними проблемами и фобиями.


Северный Кавказ. Модернизационный вызов

В книге дается представление авторов об экономике Северного Кавказа, существенно отличающееся от общепризнанного. Под вопрос ставятся многие сложившиеся мифы и стереотипы – тотальная депрессивность; масштабы безработицы и бедности; наличие барьеров, полностью исключающих модернизацию; дефицит финансовых средств как основная причина недостаточного экономического развития. Формулируются базовые принципы регионального развития, альтернативные традиционно принятым в северокавказской политике, предлагаются меры по их реализации.


Инновационная экономика. Дорожная карта – 2040

На день сегодняшний перед вами самая необычная и еретическая книга по экономике в России и в мире. Два дерзких профессора из Стокгольма создали в 1999 г. книгу-предтечу «Бизнес в стиле фанк», но не посмели выйти «за околицу», к океану новых знаний. А мы рискнули! Беремся это доказать, ибо предлагаем за 15–20 лет уйти от денежного обращения и золотого стандарта. В работе – варианты конкретных проектов и концепций. Дана корректная оценка земле Русской и «брошен якорь в будущее». Дана концепция матрицы нового социального уклада.


Экономический кризис и перспективы развития капитализма

Вопреки дифирамбам французских энциклопедистов, а также мнению многих деятелей науки и культуры, живших в разные времена и считающих человека венцом творения, homo sapiens сам по себе не является идеальным и, к сожалению, все больше отдаляется от библейских стандартов. В наше время охваченные страстью потребительства люди далеко не всегда сознают, что творят. Ведь и современный кризис, как известно, стал следствием циничного прагматизма, а точнее, превысившей все пределы элементарной человеческой жадности руководителей банковских корпораций, которые в погоне за прибылью безответственно предоставили кредиты неспособным к их оплате потребителям.


Обеспечение информационной безопасности бизнеса

Данную книгу можно назвать практической энциклопедией. В ней дан максимальный охват проблематики обеспечения информационной безопасности, начиная с современных подходов, обзора нормативного обеспечения в мире и в России и заканчивая рассмотрением конкретных направлений обеспечения информационной безопасности (обеспечение ИБ периметра, противодействие атакам, мониторинг ИБ, виртуальные частные сети и многие другие), конкретных аппаратно-программных решений в данной области. Книга будет полезна бизнес-руководителям компаний и тем, в чью компетенцию входит решение технических вопросов обеспечения информационной безопасности.Все права защищены.


Антикризисная книга Коммерсантъ'a

В этой книге авторы пытаются показать, как возник и развивается кризис и как реагируют на него государство, предприниматели и простые люди. Кому-то это поможет разобраться в происходящем, кому-то – понять, почему привычный мир оказался таким неустойчивым.Ожидание ужаса сильнее самого ужаса. И есть основания полагать, что если нефтяные цены и уровень зарплаты к осени не восстановятся (похоже, что так), к сентябрю-октябрю 2009 года новые правила не только оформятся, но станут понятны всем. А это означает, что в нашей жизни вновь появится определенность и предсказуемость, и мы – в очередной раз – прорвемся.Эта книга – хроника развертывания кризиса в российской экономике с сентября по ноябрь 2008 года, написанная на основе публикаций в газете «Коммерсантъ» и журналах «Деньги», «Власть» и «Секрет фирмы».