Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных - [10]
● DD-тип 2: данные, о которых мы не знаем, что они отсутствуют;
● DD-тип 3: выборочные факты;
● DD-тип 4: самоотбор;
● DD-тип 5: неизвестный определяющий фактор;
● DD-тип 6: данные, которые могли бы существовать;
● DD-тип 7: данные, меняющиеся со временем;
● DD-тип 8: неверно определяемые данные;
● DD-тип 9: обобщение данных;
● DD-тип 10: ошибки измерения и неопределенность;
● DD-тип 11: искажения обратной связи и уловки;
● DD-тип 12: информационная асимметрия;
● DD-тип 13: намеренно затемненные данные;
● DD-тип 14: фальшивые и синтетические данные;
● DD-тип 15: экстраполяция за пределы ваших данных.
Глава 2
Обнаружение темных данных
Что мы собираем, а что нет
Темные данные со всех сторон
Данные не возникают сами собой. Они не существуют с начала времен, ожидая, пока их проанализируют. Кто-то должен собрать их. И разные методы сбора данных, как вы догадываетесь, порождают разные типы темных данных.
В этой главе мы рассмотрим три основных метода создания наборов данных, а также пути возникновения темных данных, связанные с каждым из них. Следующая глава посвящена дополнительным осложнениям, которые темные данные могут вызывать в разных ситуациях.
Итак, вот три основные стратегии создания наборов данных.
● Сбор данных обо всех интересующих нас объектах.
Именно к этому стремятся, например, во время переписи населения. Точно так же инвентаризации преследуют цель максимально детализировать все позиции на складе или в любом другом месте. В 2018 г. ежегодная инвентаризация в лондонском зоопарке, которая занимает около недели, показала, что в данной организации насчитывается 19 289 животных – от филиппинских крокодилов до беличьих обезьян, пингвинов Гумбольдта и двугорбых верблюдов (в случае муравьев, пчел и других социальных насекомых подсчитывались колонии). В главе 1 мы уже отмечали, что супермаркеты собирают данные обо всех покупках. То же самое касается налогов, операций по кредитным картам и персонала. Не менее подробно регистрируются спортивная статистика, книги на полках библиотек, цены в магазинах и многое другое. Во всех этих примерах каждая единица – будь то объект или человек – детализируется для формирования набора данных.
● Сбор данных о некоторых элементах совокупности.
Альтернативой полной переписи населения является сбор данных в рамках ограниченной выборки. Репрезентативная выборка крайне важна в нашем контексте, и мы подробно рассмотрим ее взаимосвязь с проблемой темных данных. Проще говоря, порой приходится собирать только те данные, которые легче собрать. Чтобы понять, как ведут себя покупатели в принципе, вы можете понаблюдать за теми, кто пришел в магазин сегодня. Для того чтобы узнать, сколько времени у вас отнимает дорога до работы, вы можете просто ежедневно на протяжении месяца следить за продолжительностью поездки. Бывают ситуации, когда просто не нужно измерять все: чтобы увидеть динамику изменения цен на продукты питания, вам не нужна информация о каждой покупке, а для определения среднего веса песчинки ни к чему взвешивать каждую из них. В главе 1 мы уже видели, что само понятие «измерение всего» может быть лишено смысла. Полнота данных, например о вашем росте, будет ограничена только теми измерениями, которые вы проведете.
Несколько лет назад, еще до начала эры легкодоступных больших наборов данных, мы с коллегами опубликовали «Справочник по небольшим наборам данных»[12], включающий в себя 510 массивов реальных данных, на примере которых преподаватели могут иллюстрировать концепции и методы статистики. В справочнике приведены результаты 20 000 бросков игральной кости, данные о сроках беременности, толщине роговицы глаза, длительности нервных импульсов и множество других наборов данных, очень немногие из которых описывают генеральные совокупности целиком.
● Изменение условий.
Первые две стратегии помогают собрать так называемые данные наблюдения. Вы просто измеряете значения, которые присущи объектам или людям, никак не меняя условия, в которых проводятся измерения. Вы не даете людям лекарств, чтобы отследить их реакцию, не просите выполнить какое-либо задание, чтобы подсчитать, сколько времени это займет, не меняете удобрения, чтобы посмотреть, какие из них дают самый обильный урожай, не пробуете разную температуру воды, чтобы понять, как она влияет на вкус чая. Если же вы меняете условия сбора данных, иначе говоря, вмешиваетесь, то такие данные называются экспериментальными. Экспериментальные данные особенно важны, потому что они могут дать информацию о контрфактуальности (DD-тип 6: данные, которые могли бы существовать), упомянутой в главе 1.
Хотя у всех трех методов сбора данных есть немало общих недостатков, связанных с темными данными, для каждого из них характерны и свои особые проблемы. Мы начнем с рассмотрения первой стратегии сбора данных, претендующей на полный охват.
Извлечение, отбор и самоотбор данных
Компьютеры оказали революционное влияние на все аспекты нашей жизни. Где-то это влияние проявляется очевидным образом, например в программном обеспечении, которое я использую для подготовки рукописи этой книги, или в системе бронирования авиабилетов, а где-то оно не так заметно, если речь идет, скажем, о встроенных компьютерах, управляющих тормозами и двигателем автомобиля, или о начинке какого-нибудь копировального аппарата.
Содержит основные вопросы учебной программы курса «Экономика организаций (предприятий)». Раскрываются экономические основы функционирования предприятия в условиях рынка, ресурсы предприятия и показатели их использования, экономические показатели деятельности предприятия (издержки, финансовые результаты, ценообразование), излагаются вопросы планирования и управления качеством на предприятии.Отвечает требованиям Федерального государственного образовательного стандарта, а также содержанию Примерной основной образовательной программы подготовки бакалавров по профилю «Экономика предприятий и организаций».Для студентов бакалавриата, обучающихся по направлению 080100 «Экономика».
В книге дается представление авторов об экономике Северного Кавказа, существенно отличающееся от общепризнанного. Под вопрос ставятся многие сложившиеся мифы и стереотипы – тотальная депрессивность; масштабы безработицы и бедности; наличие барьеров, полностью исключающих модернизацию; дефицит финансовых средств как основная причина недостаточного экономического развития. Формулируются базовые принципы регионального развития, альтернативные традиционно принятым в северокавказской политике, предлагаются меры по их реализации.
На день сегодняшний перед вами самая необычная и еретическая книга по экономике в России и в мире. Два дерзких профессора из Стокгольма создали в 1999 г. книгу-предтечу «Бизнес в стиле фанк», но не посмели выйти «за околицу», к океану новых знаний. А мы рискнули! Беремся это доказать, ибо предлагаем за 15–20 лет уйти от денежного обращения и золотого стандарта. В работе – варианты конкретных проектов и концепций. Дана корректная оценка земле Русской и «брошен якорь в будущее». Дана концепция матрицы нового социального уклада.
Вопреки дифирамбам французских энциклопедистов, а также мнению многих деятелей науки и культуры, живших в разные времена и считающих человека венцом творения, homo sapiens сам по себе не является идеальным и, к сожалению, все больше отдаляется от библейских стандартов. В наше время охваченные страстью потребительства люди далеко не всегда сознают, что творят. Ведь и современный кризис, как известно, стал следствием циничного прагматизма, а точнее, превысившей все пределы элементарной человеческой жадности руководителей банковских корпораций, которые в погоне за прибылью безответственно предоставили кредиты неспособным к их оплате потребителям.
Данную книгу можно назвать практической энциклопедией. В ней дан максимальный охват проблематики обеспечения информационной безопасности, начиная с современных подходов, обзора нормативного обеспечения в мире и в России и заканчивая рассмотрением конкретных направлений обеспечения информационной безопасности (обеспечение ИБ периметра, противодействие атакам, мониторинг ИБ, виртуальные частные сети и многие другие), конкретных аппаратно-программных решений в данной области. Книга будет полезна бизнес-руководителям компаний и тем, в чью компетенцию входит решение технических вопросов обеспечения информационной безопасности.Все права защищены.
В этой книге авторы пытаются показать, как возник и развивается кризис и как реагируют на него государство, предприниматели и простые люди. Кому-то это поможет разобраться в происходящем, кому-то – понять, почему привычный мир оказался таким неустойчивым.Ожидание ужаса сильнее самого ужаса. И есть основания полагать, что если нефтяные цены и уровень зарплаты к осени не восстановятся (похоже, что так), к сентябрю-октябрю 2009 года новые правила не только оформятся, но станут понятны всем. А это означает, что в нашей жизни вновь появится определенность и предсказуемость, и мы – в очередной раз – прорвемся.Эта книга – хроника развертывания кризиса в российской экономике с сентября по ноябрь 2008 года, написанная на основе публикаций в газете «Коммерсантъ» и журналах «Деньги», «Власть» и «Секрет фирмы».