Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - [4]

Шрифт
Интервал

Предыдущие примеры иллюстрируют первый тип темных данных. Мы знаем, что данные для пациентов TARN существуют, даже если не все значения учтены. Мы знаем, что у людей в списке опроса были ответы, даже если они их не давали. В общем, мы знаем, что существуют некоторые значения данных, но не знаем, какие именно.

Следующие примеры познакомят нас с другим типом темных данных – DD-тип 2: данные, о которых мы не знаем, что они отсутствуют.

Многие города сталкиваются с проблемой выбоин в дорожном покрытии. Вода попадает в мелкие трещины, замерзает зимой, расширяя их, а колеса автомобилей довершают разрушительную работу. В результате у машин портятся колеса и подвеска. Бостон решил бороться с этой проблемой с помощью современных технологий. Он выпустил приложение для смартфона, которое использовало внутренний акселерометр устройства, чтобы определять тряску автомобиля, проехавшего по выбоине, а затем с помощью GPS автоматически передавать ее координаты городским властям.

Фантастика! Теперь люди, обслуживающие шоссе, будут точно знать, куда ехать, чтобы залатать выбоины. Однако это элегантное и дешевое решение реальной проблемы, основанное на современных технологиях анализа данных, не учитывает того, что владельцы автомобилей и дорогих моделей смартфонов с акселерометрами концентрируются в более богатых районах. Это повышает вероятность того, что выбоины на дорогах в районах победнее не будут обнаружены, а значит, аварийная опасность таких дорог будет все возрастать. Вместо того чтобы решить проблему в целом, такой подход усугубляет социальное неравенство. Ситуация в этом примере отличается от ситуации с базой данных TARN, когда мы точно знали, что отсутствуют некоторые данные. Здесь мы этого не знаем.

Вот еще одна иллюстрация темных данных такого рода. В конце октября 2012 г. сильнейший ураган, получивший название «Сэнди»[5], обрушился на восточное побережье Соединенных Штатов. На тот момент это был второй по разрушительности ураган в истории США и крупнейший в истории атлантический ураган, причинивший ущерб в $75 млрд и унесший жизни более 200 человек в восьми странах. «Сэнди» затронул 24 штата (от Флориды на юге до Висконсина и штата Мэн на севере страны) и спровоцировал закрытие финансовых рынков из-за отключения электроэнергии. Надо признать, что поэтому он стал еще и косвенной причиной всплеска рождаемости спустя девять месяцев после описываемых событий.

Ураган «Сэнди» также стал настоящим триумфом современных СМИ. Ураган сопровождался шквалом сообщений в твиттер, который позволяет обсуждать происходящее сразу же и с тем, кто непосредственно участвует в событии. Вообще, социальные платформы – это способ быть в курсе событий в реальном времени, и «Сэнди» стал именно таким событием. В период с 27 октября по 1 ноября 2012 г. было опубликовано более 20 млн твитов об урагане. Очевидно, что это идеальный материал, на основе которого можно получить непрерывную картину стихийного бедствия по мере его развития – вы видите, какие районы пострадали больше всего и куда направить экстренную помощь.

Однако спустя какое-то время анализ показал, что наибольшее количество твитов о «Сэнди» пришло с Манхэттена и лишь немногие поступали из таких районов, как Рокуэй и Кони-Айленд. Означало ли это, что Рокуэй и Кони-Айленд пострадали не так серьезно? Метро и улицы Манхэттена были затоплены, это правда, но едва ли его можно назвать самым пострадавшим районом даже в пределах Нью-Йорка. Причина того, что из каких-то районов было послано меньше твитов, заключалась не в том, что ураган пощадил их, а в том, что на их территории оказалось меньше пользователей твиттера и меньшее число смартфонов, чтобы отправить твит.

Давайте снова представим себе крайний вариант этой ситуации. Если бы ураган «Сэнди» полностью уничтожил какой-нибудь населенный пункт, то оттуда вообще бы не поступало никаких твитов и создалось бы впечатление, что там все просто замечательно. Но на самом деле мы опять имеем дело с темными данными.

Примеры второго типа темных данных, когда мы не знаем, что чего-то не достает, встречаются не менее часто, чем примеры первого типа. Они варьируются от необнаруженных мошенничеств до незафиксированных убийств, выпадающих из результатов опроса жертв преступлений.

Как-то на информационном брифинге бывший министр обороны США Дональд Рамсфелд охарактеризовал темные данные второго типа, да так удачно, что его высказывание стало знаменитым: «Есть известные неизвестные; то есть мы знаем, что есть какие-то вещи, которых мы не знаем. Но есть также неизвестные неизвестные – те, о которых мы не знаем, что мы их не знаем»[6]. Этот замысловатый пассаж стал объектом насмешек для разнообразных СМИ, но их критика была несправедливой. То, что сказал Рамсфелд, было сущей правдой и имело глубокий смысл.

Эти первые два типа темных данных только начало. Далее мы познакомимся со множеством других, которые вкупе и составляют основу этой книги. Как вы увидите, темные данные разнообразны и до тех пор, пока мы не осознаем, что наши данные могут быть неполными; наблюдение чего-либо не означает наблюдения всего; процедура измерения может быть неточной; а то, что мы измеряем, на самом деле может оказаться не тем, что мы хотим измерить, мы рискуем получать результаты, далекие от истины, что зачастую и происходит. Тот факт, что никто не слышит, как в лесу падает дерево, не означает, что оно падает бесшумно.


Рекомендуем почитать
Задворки Европы. Почему умирает Прибалтика

“Была Прибалтика – стала Прое#алтика”, – такой крепкой поговоркой спустя четверть века после распада СССР описывают положение дел в своих странах жители независимых Литвы, Латвии и Эстонии. Регион, который считался самым продвинутым и успешным в Советском Союзе, теперь превратился в двойную периферию. России до Прибалтики больше нет дела – это не мост, который мог бы соединить пространство между Владивостоком и Лиссабоном, а геополитический буфер. В свою очередь и в «большой» Европе от «бедных родственников» не в восторге – к прибалтийским странам относятся как к глухой малонаселенной окраине на восточной границе Евросоюза с сильно запущенными внутренними проблемами и фобиями.


Экспонента

Известный технологический аналитик Азим Ажар помогает понять, как быстрое развитие технологий меняет экономическое и политическое устройство современного мира, и предлагает набор стратегий для устойчивого развития нашего общества в будущем. В книге подробно рассматриваются все элементы ESG: изменение отношений между сотрудниками и работодателями (социальная ответственность бизнеса), влияние на окружающую среду, роль государства в формировании устойчивой экономики. Для руководителей и владельцев бизнеса, тех, кто формирует экономическую и социальную повестку, а также всех, кто стремится разобраться, как экспоненциальные технологии влияют на общество и что с этим делать.


Кембриджская история капитализма. Том 2. Распространение капитализма: 1848 — наши дни

Второй том «Кембриджской истории капитализма» дает авторитетный обзор того, как капитализм распространялся по всему миру, как он воздействовал на страны и народы и какими разнообразными были реакции на него. Широкий географический охват и сопоставительный подход позволил коллективу ведущих специалистов выявить глобальные последствия капитализма для промышленности, сельского хозяйства и торговли, наряду с ответными реакциями правительств, фирм и рынков. Авторы показывают, как Первая мировая война остановила распространение глобального капитализма, однако к концу XX века он вновь поднялся в полный рост.


Выборы в учредительное собрание и диктатура пролетариата

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Разрешение противоречия коммунизма и капитализма в современном мире

В статье раскрывается противоречие коммунизма и капитализма как основное противоречие современного мира – эпохи революционного перехода от капитализма к коммунизму, эпохи мировой коммунистической революции. Автор обосновывает, что для дальнейшего успешного развития Китайской Народной Республики как основы и лидера современной мировой коммунистической системы, Социалистической Республики Вьетнам, Республики Куба, Лаосской Народно-Демократической Республики, Корейской Народно-Демократической Республики необходимо расширенное воспроизводство их коммунистической сущности, необходимо планомерно разрешать противоречие коммунистической природы и момента отрицания коммунизма в нем самом, необходимо обеспечивать сохранение и развитие диктатуры пролетариата, постановки и реализации цели коммунизма – всестороннего развития всех членов общества.


Азбука экономики

Ясное и краткое современное изложение основных экономических законов.