Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - [16]

Шрифт
Интервал

Представим, что у нас нет записей о рождении, что мы не можем позволить себе провести перепись и узнать возраст каждого, а базы данных, собранные различными службами и сервисами, которые просят указать при регистрации дату рождения, не внушают доверия из-за наличия темных данных. Опросы позволяют получить достаточно точную оценку, задавая лишь некоторым людям вопрос об их возрасте. Вы, должно быть, сразу сообразили, что существует очевидный риск возникновения темных данных, поскольку мы не узнаем возраст всех тех, кто не попал в наш опрос. Но закон больших чисел говорит о том, что узнать это вполне возможно при условии репрезентативности выборки. Более того, математика, лежащая в основе этого закона, утверждает, что выборка необязательно должна быть огромной – тысячи человек для средних размеров страны может оказаться достаточно. Согласитесь, это совсем не то, что опрашивать миллионы.

Обычно к выборке прилагается крайне важное пояснение, которое описывает ее как сформированную либо «случайно», либо «должным образом». Если мы включим в выборку только посетителей ночных клубов или только обитателей домов престарелых, то вряд ли сможем точно определить средний возраст населения. Нам нужно быть уверенными, насколько это возможно, в том, что выборка должным образом представляет исследуемое население. Лучший способ достичь этого – начать с составления списка всех интересующих нас представителей населения (такой список называется рамкой выборки), затем случайным образом выбрать людей из этого списка и спросить их о возрасте. Такие детальные списки часто создают на основе административных данных, например списков избирателей или результатов последней переписи.

Поначалу случайный выбор тех, кого спрашивать о возрасте, может показаться странным. Конечно, каждый такой опрос может давать разный результат. Однако, хотя он не гарантирует того, что выборка свободна от негативного влияния темных данных (например, что доля молодых людей в ней не выше, чем в популяции), вероятность таких искажений поддается контролю. Это означает, что мы можем утверждать, например, следующее: «Почти для всех (то есть для 95 %) сформированных выборок среднее значение может отклоняться не более чем на два года от среднего возраста населения». Увеличивая размер выборки, мы можем увеличить и уверенность с 95 %, скажем, до 99 %, и уменьшить диапазон отклонений на год или любую другую величину. А если вас беспокоит отсутствие абсолютной достоверности выводов, сделанных по результатам такого процесса, напомним, что ничто в этой жизни не является абсолютно достоверным (разве что смерть и налоги).

Один из любопытных аспектов закона больших чисел состоит в том, что точность оценки существенно не зависит от того, насколько большую долю населения составляет выборка, во всяком случае если популяция большая, а выборка относительно невелика. Точность, как ни странно, зависит просто от численности выборки. При прочих равных условиях выборка численностью тысячу человек для населения в миллион обычно дает такую же точность, как и для населения в миллиард. Это верно, несмотря на то, что отношение выборки к совокупности в первом случае будет один к тысяче, а во втором – один к миллиону.

К сожалению, эта стратегия выборочного опроса не является волшебной палочкой. Как и во всем остальном в жизни (или почти во всем остальном?), у опросов есть и обратная сторона, а именно то, что они обычно подразумевают добровольное участие. Это означает, что люди могут отвечать на одни вопросы и не отвечать на другие или даже отказаться от участия в принципе. И тут мы входим в область темных данных DD-тип 4: самоотбор.

Пример такого отсутствия ответа приведен в табл. 1, где показаны данные с некоторыми отсутствующими значениями. Они обозначены вопросительным знаком (часто для этого используется аббревиатура NA, что означает not available или «нет данных»). В таблице приведены 10 записей с маркетинговыми данными, взятых с сайта данных для машинного обучения[21]. Данные были собраны из анкет, выданных посетителям торгового центра в районе залива Сан-Франциско. Цель исследования заключалась в построении модели прогнозирования доходов в зависимости от переменных. Вот эти переменные: A – пол, B – семейное положение, C – возраст, D – образование, E – род занятий, F – сколько лет проживает в Сан-Франциско, G – число работающих в семье, H – численность семьи, I – число членов семьи младше 18 лет, J – статус домохозяйства, K – тип жилой недвижимости, L – этническая группа, M – язык и, наконец, последняя переменная, которая должна была быть спрогнозирована, N – доход (на сайте дается более подробная информация о значении и диапазоне каждой из переменных, я же для удобства обозначил их буквами). Весь набор данных содержит 8993 строки, подобных тем, что показаны в таблице, но в 2117 из них есть отсутствующие значения – так же, как и в трех строках приведенного фрагмента. При этом в одной из этих трех строк отсутствует два значения. Эти отсутствующие значения явно относятся к DD-типу 1: данные, о которых мы знаем, что они отсутствуют


Рекомендуем почитать
Экономика предприятия

Содержит основные вопросы учебной программы курса «Экономика организаций (предприятий)». Раскрываются экономические основы функционирования предприятия в условиях рынка, ресурсы предприятия и показатели их использования, экономические показатели деятельности предприятия (издержки, финансовые результаты, ценообразование), излагаются вопросы планирования и управления качеством на предприятии.Отвечает требованиям Федерального государственного образовательного стандарта, а также содержанию Примерной основной образовательной программы подготовки бакалавров по профилю «Экономика предприятий и организаций».Для студентов бакалавриата, обучающихся по направлению 080100 «Экономика».


Северный Кавказ. Модернизационный вызов

В книге дается представление авторов об экономике Северного Кавказа, существенно отличающееся от общепризнанного. Под вопрос ставятся многие сложившиеся мифы и стереотипы – тотальная депрессивность; масштабы безработицы и бедности; наличие барьеров, полностью исключающих модернизацию; дефицит финансовых средств как основная причина недостаточного экономического развития. Формулируются базовые принципы регионального развития, альтернативные традиционно принятым в северокавказской политике, предлагаются меры по их реализации.


Инновационная экономика. Дорожная карта – 2040

На день сегодняшний перед вами самая необычная и еретическая книга по экономике в России и в мире. Два дерзких профессора из Стокгольма создали в 1999 г. книгу-предтечу «Бизнес в стиле фанк», но не посмели выйти «за околицу», к океану новых знаний. А мы рискнули! Беремся это доказать, ибо предлагаем за 15–20 лет уйти от денежного обращения и золотого стандарта. В работе – варианты конкретных проектов и концепций. Дана корректная оценка земле Русской и «брошен якорь в будущее». Дана концепция матрицы нового социального уклада.


Экономический кризис и перспективы развития капитализма

Вопреки дифирамбам французских энциклопедистов, а также мнению многих деятелей науки и культуры, живших в разные времена и считающих человека венцом творения, homo sapiens сам по себе не является идеальным и, к сожалению, все больше отдаляется от библейских стандартов. В наше время охваченные страстью потребительства люди далеко не всегда сознают, что творят. Ведь и современный кризис, как известно, стал следствием циничного прагматизма, а точнее, превысившей все пределы элементарной человеческой жадности руководителей банковских корпораций, которые в погоне за прибылью безответственно предоставили кредиты неспособным к их оплате потребителям.


Обеспечение информационной безопасности бизнеса

Данную книгу можно назвать практической энциклопедией. В ней дан максимальный охват проблематики обеспечения информационной безопасности, начиная с современных подходов, обзора нормативного обеспечения в мире и в России и заканчивая рассмотрением конкретных направлений обеспечения информационной безопасности (обеспечение ИБ периметра, противодействие атакам, мониторинг ИБ, виртуальные частные сети и многие другие), конкретных аппаратно-программных решений в данной области. Книга будет полезна бизнес-руководителям компаний и тем, в чью компетенцию входит решение технических вопросов обеспечения информационной безопасности.Все права защищены.


Антикризисная книга Коммерсантъ'a

В этой книге авторы пытаются показать, как возник и развивается кризис и как реагируют на него государство, предприниматели и простые люди. Кому-то это поможет разобраться в происходящем, кому-то – понять, почему привычный мир оказался таким неустойчивым.Ожидание ужаса сильнее самого ужаса. И есть основания полагать, что если нефтяные цены и уровень зарплаты к осени не восстановятся (похоже, что так), к сентябрю-октябрю 2009 года новые правила не только оформятся, но станут понятны всем. А это означает, что в нашей жизни вновь появится определенность и предсказуемость, и мы – в очередной раз – прорвемся.Эта книга – хроника развертывания кризиса в российской экономике с сентября по ноябрь 2008 года, написанная на основе публикаций в газете «Коммерсантъ» и журналах «Деньги», «Власть» и «Секрет фирмы».