Искусство статистики. Как находить ответы в данных [заметки]

Шрифт

Интервал

Издана на русском языке: Сильвер Н. Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет. М.: КоЛибри, 2015. Прим. пер.

Эта книга Нейта Сильвера – превосходное введение в сферу применения статистики для прогнозов в спорте и других областях.

Подробно данные о Шипмане обсуждаются в работе: D. Spiegelhalter and N. Best, ‘Shipman’s Statistical Legacy’, Significance 1:1 (2004), 10–12. Все документы по этому общественному расследованию находятся на сайте http://www.the-shipman-inquiry.org.uk/reports.asp.

Термины, выделенные полужирным шрифтом, включены в глоссарий в конце книги.

Шипман повесился в Уэйкфилдской тюрьме за день до своего 58-летия. После этого жена получала деньги от Национальной службы здравоохранения Великобритании, на которые не имела бы права, если бы ее муж умер после 60 лет – возраста выхода на пенсию. Прим. пер.

Спойлер: это можно было сделать практически наверняка.

В отечественной практике высотой груди дерева считается расстояние в 1,3 метра от корневой шейки. Прим. пер.

T. W. Crowther et al., ‘Mapping Tree Density at a Global Scale’, Nature 525 (2015), 201–5.

Погрешность для этой величины – 0,1 триллиона, то есть истинное количество деревьев на Земле находится в диапазоне 2,94–3,14 триллиона (я полагаю, что эта величина слишком точна, если учесть большое количество предположений, принятых при моделировании). По оценкам ученых, ежегодно вырубается 15 миллиардов (15 000 000 000) деревьев и с момента возникновения человеческой цивилизации планета уже потеряла 46 % деревьев.

E. J. Evans, Thatcher and Thatcherism (Routledge, 2013), p. 30.

Изменения в национальной статистике: включение незаконных препаратов и проституции в национальную статистику Великобритании [Интернет] (Национальное статистическое управление, 2014).

Национальное статистическое управление Великобритании описывает ряд мер для благосостояния на сайте https://www.ons.gov.uk/peoplepopulationandcommunity/wellbeing.

Если бы я был типичным среднестатистическим человеком, этот факт давал бы мне основание заранее чему-то радоваться.

N. T. Nikas, D. C. Bordlee and M. Moreira, ‘Determination of Death and the Dead Donor Rule: A Survey of the Current Law on Brain Death’, Journal of Medicine and Philosophy 41:3 (2016), 237–56.

Викторианская эпоха – время правления королевы Виктории (1837–1901). Прим. пер.

J. P. Simmons and U. Simonsohn, ‘Power Posing: P-Curving the Evidence’, Psychological Science 28 (2017), 687–93. Возражения смотрите в работе: A. J. C. Cuddy, S. J. Schultz and N. E. Fosse, ‘P-Curving a More Comprehensive Body of Research on Postural Feedback Reveals Clear Evidential Value for Power-Posing Effects: Reply to Simmons and Simonsohn (2017)’, Psychological Science 29 (2018), 656–66.

Основная рекомендация Американской статистической ассоциации (ASA) – «Преподавать статистику как исследовательский процесс решения проблем и принятия решений». См. https://www.amstat.org/asa/education/Guidelines-for-Assessment-and-Instruction-in-Statistics-Education-Reports.aspx. Цикл PPDAC был представлен в работе: R. J. MacKay and R. W. Oldford, ‘Scientific Method, Statistical Method and the Speed of Light’, Statistical Science 15 (2000), 254–78. Его активно поддерживает школьная система Новой Зеландии, которая обеспечивает хорошее статистическое образование. См. C. J. Wild and M. Pfannkuch, ‘Statistical Thinking in Empirical Enquiry’, International Statistical Review 67 (1999), 223–265, и онлайн-курс «Данные для идей», https://www.futurelearn.com/courses/data-to-insight.

Книга Дугласа Адамса вышла в 1979 году, когда он уже получил степень и преподавал. Прим. пер.

Издана на русском языке: Адамс Д. Автостопом по галактике. М.: АСТ, 2014. Прим. ред.

Издательство (дочернее предприятие (Penguin Books) было основано в 1937 году и выпускало недорогие научно-популярные (и другие нехудожественные) книги в мягких обложках. Они активно использовались для самообразования после войны, а газета The Guardian даже назвала эти книги «неформальным университетом для британцев 1950-х». Прим. пер.

Издана на русском языке: Хафф Д. Как лгать при помощи статистики. М.: Альпина Паблишер, 2015. Прим. пер.

Питер Хиггс (род. 1929) – британский физик, предложивший в 1964 году идею нового поля и соответствующей частицы (бозона), которые сейчас носят его имя. Прим. пер.

Скрининговые исследования – обследование людей, не имеющих симптомов, с целью выявить какое-нибудь заболевание. Прим. пер.

Статины – препараты, которые применяются для снижения уровня холестерина в крови. Прим. пер.

См. ‘History of Scandal’, Daily Telegraph, 18 July 2001, and D. J. Spiegelhalter et al., ‘Commissioned Analysis of Surgical Performance Using Routine Data: Lessons from the Bristol Inquiry’, Journal of the Royal Statistical Society: Series A (Statistics in Society) 165 (2002), 191–221.

Сейчас я сожалею об использовании выражения «избыточные смерти», поскольку газеты потом интерпретировали его как «предотвратимые случаи смерти». На деле просто по вероятностным соображениям примерно в половине больниц количество смертей будет больше ожидаемого, и лишь некоторых из них можно было бы избежать.

Данные о результатах выживания детей, перенесших операции на сердце, в Соединенном Королевстве Великобритании и Северной Ирландии можно получить на сайте http://childrensheartsurgery.info/.

Оказывается, нет никаких веских доказательств каких-либо принципиальных различий между этими больницами, если учитывать степень серьезности случаев.

См. A. Cairo, The Truthful Art: Data, Charts, and Maps for Communication (New Riders, 2016), и The Functional Art: An Introduction to Information Graphics and Visualization (New Riders, 2012).

Индекс массы тела разработан бельгийским статистиком и социологом Адольфом Кетле в 1830-х годах. Он определяется так: ИМТ = масса (кг) / рост^>2 (м). Используются самые разные способы группирования людей по этому параметру; в настоящее время в Великобритании применяются такие категории: недостаточная масса (ИМТ < 18,5), нормальная масса (ИМТ от 18,5 до 25), избыточная масса (от 25 до 30), ожирение (от 30 до 35), болезненное ожирение (свыше 35).

Сам термин «индекс массы тела» появился намного позднее, в статье Анселя Киза с соавторами, опубликованной в 1972 году в Journal of Chronic Diseases. Прим. пер.

Информацию Всемирной организации здравоохранения о канцерогенности потребления красного мяса и обработанного мяса см. http://www.who.int/features/qa/cancer-red-meat/en/. ‘Bacon, Ham and Sausages Have the Same Cancer Risk as Cigarettes Warn Experts’, Daily Record, 23 October 2015.

Строго говоря, относительное увеличение на 18 % дает 6 × 1,18 = 7,08 процента, но для наших целей округления до 7 % вполне достаточно.

Это было любимое наблюдение Ханса Рослинга, см. следующую главу.

E. A. Akl et al., ‘Using Alternative Statistical Formats for Presenting Risks and Risk Reductions’, Cochrane Database of Systematic Reviews 3 (2011).

Строго говоря, шесть темных фигурок в обеих частях рисунка следовало бы разместить по-разному, поскольку диаграммы представляют разные группы из 100 человек. Но это затруднило бы их сравнение.

Подчеркиваем, что в данном случае вовсе не подразумевается, что вероятность рака равна 6/94. Объясним это на простом примере. Когда говорят о «шансах 1 к 2», то вероятность не равна 1/2. Это означает, что в вашу пользу один возможный исход, а против вас – два исхода. Следовательно, «шансы 1 к 2» означают один удачный исход из трех возможных, то есть вероятность успеха равна 1/3. Аналогично, в нашем случае вероятность рака равна 6/100, а число 6/94 – это отношение вероятности рака к вероятности его отсутствия: (6/100) / (94/100) = 6/94. Прим. пер.

‘Statins Can Weaken Muscles and Joints: Cholesterol Drug Raises Risk of Problems by up to 20 per cent’, Mail Online, 3 June 2013. Исходная работа: I. Mansi et al., ‘Statins and Musculoskeletal Conditions, Arthropathies, and Injuries’, JAMA Internal Medicine 173 (2013), 1318–26.

Евгеника (др.-греч. εύγενής – хорошего рода) – это учение о том, что человеческую расу можно улучшать путем селекции либо путем поощрения деторождения у «подходящих» людей (например, с помощью финансовых стимулов), либо препятствуя размножению «неподходящих» (скажем, за счет принудительной стерилизации). Многие из первых создателей статистических методов были увлеченными евгениками. Однако опыт нацистской Германии положил конец этой концепции, хотя академический журнал Annals of Eugenics поменял свое название на Annals of Genetics только в 1955 году.

F. Galton, ‘Vox Populi’, Nature (1907); доступно по адресу: https://www.nature.com/articles/075450a0.

Слово «распределение» широко используется в статистике, но может иметь разные смыслы, поэтому я постараюсь объяснить, что оно означает в каждой ситуации. Диаграммы построены с помощью программного обеспечения для языка R.

На диаграмме размаха центральная вертикальная линия в прямоугольнике представляет собой медиану (серединное значение), сам ящик-прямоугольник включает основную часть точек, расположенную близко к медиане [обычно в ящик включают половину наблюдений, то есть границами ящика являются первый и третий квартили, и, соответственно, ширина ящика отражает интерквартильный размах; Прим. пер.], а горизонтальные линии-«усы» показывают наименьшее и наибольшее значение, либо доходят только до краев статистически значимой выборки, а выбросы изображаются отдельно.

Десятичный логарифм числа x – это такое число y, что 10^>y = x. Например, десятичный логарифм 1000 равен 3, потому что 10^>3 = 1000. Логарифмические преобразования особенно уместны, когда есть основания полагать, что люди совершают скорее относительные, а не абсолютные ошибки. Скажем, если мы ожидаем, что люди получают неверный ответ, ошибаясь на 20 % в ту или иную сторону, а не на 200 драже в банке.

Вообще говоря, непрерывным переменным противопоставляются дискретные, которые необязательно принимают неотрицательные целые значения, а могут принимать значения в произвольном конечном или счетном множестве. Прим. пер.

Это определение удобно для нечетного количества элементов в выборке. Если число элементов четное, то обычно медианой считают полусумму двух средних элементов ряда. Прим. пер.

Хотя в 1907 году в Nature оспаривали выбор Гальтоном медианы, считая, что среднее арифметическое дало бы лучшую оценку.

Представьте, что в комнате сидят три человека, которые зарабатывают 400, 500 и 600 фунтов в неделю. В таком случае выборочное среднее для их зарплат составляет 1500 / 3 = 500 фунтов. Медианное значение тоже 500 фунтов. Затем в комнату заходят два человека, зарабатывающие по 5000 фунтов, и выборочное среднее взлетает до 11 500 / 5 = 2300 фунтов, в то время как медиана поднялась только до 600.

В ролике о нашем эксперименте (https://www.youtube.com/watch?v=n98BhnwWmsc) я принудительно убрал 33 максимальных числа (9999 и выше), взял логарифм для получения симметричного распределения, вычислил среднее арифметическое для такого преобразованного распределения, а затем произвел обратное преобразование, чтобы получить оценку в первоначальном масштабе. Это дало число 1680, которое оказалось самой близкой оценкой к истинному значению 1616. Описанный процесс (взять логарифм, вычислить среднее арифметическое, вернуться обратно) дает то, что известно как среднее геометрическое. Это эквивалентно такой процедуре: перемножить все N чисел и извлечь корень N-й степени. Среднее геометрическое используется при создании некоторых экономических индексов, в частности основанных на отношениях. Причина в том, что у него есть «устойчивость к переворачиванию отношения»: если стоимость апельсинов измерять в килограммах на апельсин или в апельсинах на килограмм, то это даст одно и то же геометрическое среднее. В то же время среднее арифметическое может давать большой разброс.

Если не вдаваться в тонкости, то N-й процентиль – значение, которое не превышает N% наблюдений. 25-й процентиль называют первым квартилем, 50-й процентиль – вторым квартилем (или медианой), 75-й процентиль – третьим квартилем. В общем случае, когда доля наблюдений не превосходит числа α, то говорят об α-квантиле. Прим. пер.

Размах – это разность между наибольшим и наименьшим значением в выборке. Впрочем, у автора в таблице указываются только границы диапазона – как для размаха, так и для интерквартильного размаха. Прим. пер.

Почти наверняка это опечатка при наборе числа 1137, которое является числовым изображением слова leet, что на сетевом сленге означает «элитный» [Leet – это язык интернета, где латинские буквы заменяются похожими символами. Прим. пер.]; среди ответов было девять чисел 1337.

В качестве меры неравенства для сильно асимметричных распределений (например, доходов) используется коэффициент Джини, однако он сложен и не всегда интуитивно понятен.

Квадрат среднеквадратичного отклонения называется дисперсия: его трудно интерпретировать прямо, но с математической точки зрения это очень полезное понятие. [Дисперсия интерпретируется вполне естественно – это средний квадрат отклонения наблюдений от выборочного среднего. Прим. пер.].

C. H. Mercer et al., ‘Changes in Sexual Attitudes and Lifestyles in Britain through the Life Course and Over Time: Findings from the National Surveys of Sexual Attitudes and Lifestyles (Natsal)’, The Lancet 382 (2013), 1781–94. Красочное рассмотрение статистики о сексе см. в работе: D. Spiegelhalter, Sex by Numbers (Wellcome Collection, 2015).

Множество всех мужчин и множество всех женщин имеют одно и то же количество связей, поскольку каждая связь включает одного мужчину и одну женщину. Поэтому, если мужчин и женщин поровну, то и среднее число связей, приходящихся на них, должно быть одинаково. Когда я объясняю это в школах, я использую пример с рукопожатиями или партнерами по танцу.

Хотя общие показатели выживаемости на двух диаграммах напрямую сравнивать нельзя (из-за разных возрастных групп детей), фактически выживаемость детей всех возрастов за эти двадцать лет повысилась с 92 % до 98 %.

Английский математик Карл Пирсон был сторонником всего немецкого: он даже изменил написание своего имени с Carl на Karl. Впрочем, это не помешало ему применять статистику в баллистике во время Первой мировой войны. В 1911 году он основал первый в мире факультет статистики в Университетском колледже Лондона, а также возглавил евгеническую лабораторию, финансируемую по завещанию Гальтона.

Согласно теории Спирмена, любая интеллектуальная деятельность определяется двумя факторами – общим (G) и специфическим (S). Общий фактор – основа всех умственных действий. Прим. пер.

A. Cairo, ‘Download the Datasaurus: Never Trust Summary Statistics Alone; Always Visualize Your Data’, http://www.thefunctionalart.com/2016/08/download-datasaurus-never-trust-summary.html.

Альберто Каиро придумал тринадцать наборов точек, которые изображают звезду, динозавра, крест, ряды линий и так далее. При этом для всех рисунков средние значения и среднеквадратичные отклонения для обеих координат этих точек практически одинаковы, а коэффициент корреляции везде примерно равен 0. С помощью этого примера Каиро демонстрирует, что выборочное среднее и среднеквадратичное отклонение не описывают выборку в достаточной степени, поэтому всегда нужно визуализировать данные. Другой известный подобный пример – так называемый квартет Энскомба, предложенный в 1973 году английским статистиком Фрэнком Энскомбом. Это четыре набора из одиннадцати пар чисел с одинаковыми средними значениями переменной x, переменной y, дисперсии x, дисперсии y, корреляции между x и y и прямой линейной регрессии. Однако расположение точек на соответствующих четырех рисунках различно. Прим. пер.

Показатели выживаемости соответствуют различным количествам операций и потому подвержены разной степени изменчивости в силу воздействия случайных факторов. Поэтому, хотя для описания какого-то набора данных и можно посчитать коэффициент корреляции, формальный вывод должен учитывать, что эти данные являются долями. В главе 6 я покажу, как это делать.

https://esa.un.org/unpd/wpp/Download/Standard/Population/.

Перечень популярных имен, согласно данным Национальной статистической службы, содержится по адресу: https://www.ons.gov.uk/peoplepopulationandcommunity/birthsdeathsandmarriages/livebirths/bulletins/babynamesenglandandwales/2015.

При рождении будущего короля назвали Эдуард Альберт Кристиан Джордж Эндрю Патрик Дэвид, но он предпочитал имя Дэвид, которым всю жизнь называли его друзья. Прим. пер.

I. D. Hill, ‘Statistical Society of London – Royal Statistical Society: The First 100 Years: 1834–1934’, Journal of the Royal Statistical Society: Series A (General) 147:2 (1984), 130–39.

http://www.natsal.ac.uk/media/2102/natsal-infographic.pdf.

TED (Technology, Entertainment, Design) – американская организация, миссия которой – проведение ежегодных конференций под лозунгом «Идеи, достойные распространения». Прим. пер.

H. Rosling, Unveiling the Beauty of Statistics for a Fact-Based World View, доступно на www.gapminder.org.

К сожалению, книга по статистике с иллюстрациями в оттенках серого не подходит для иллюстрации его работы, поэтому я могу только порекомендовать заглянуть на сайт gapminder.org. Однажды Рослинг спорил на телевидении с датским журналистом, который бездумно повторил какое-то утверждение о мире, которое Ханс пытался опровергнуть всю жизнь. Рослинг просто сказал: «Эти факты не подлежат обсуждению. Я прав, а вы нет». Для статистики это необычно прямое заявление.

Некоторые доказательства такого искажения были получены в рандомизированном эксперименте с участием студентов в США, где женщины, подсоединенные к детектору лжи, как правило, признавали большее количество партнеров, в отличие от женщин, которым гарантировалась анонимность. В то же время у мужчин такого эффекта не наблюдалось. Участникам не сообщали, что детектор лжи ненастоящий.

Артур Конан Дойль ошибался: методы Холмса не имели ничего общего с дедукцией. Его рассуждения – абдукция. Дедукция – это переход от общих посылок к частным следствиям. Классический пример: 1) все люди смертны; 2) Сократ – человек; 3) следовательно, Сократ смертен. Дедукция гарантирует истинность заключения, если истинными были исходные посылки. При абдукции у нас есть заключение, а мы восстанавливаем какую-нибудь посылку. Например, если к нам летит футбольный мяч, мы делаем абдуктивное заключение, что по мячу кто-нибудь ударил. Или пусть у нас есть первая посылка «Все люди смертны» и заключение «Сократ смертен». Тогда мы предполагаем, что вторая посылка – «Сократ – человек». Абдукция вовсе не гарантирует истинности нашего заключения (например, мячом могли выстрелить из специальной пушки, да и если на первой странице детектива какого-то человека застали над трупом с пистолетом, то, скорее всего, окажется, что он как раз и не убийца). Однако абдуктивные рассуждения дают определенный ориентир, позволяя выдвигать разумные гипотезы. Выдающийся логик Чарльз Пирс полагал, что дедукция, индукция и абдукция – три основных вида элементарных рассуждений. Прим. пер.

Индукция может быть полной и неполной. Полная индукция гарантирует истинность заключения, неполная – нет. Вот пример полной индукции. Предположим, в классе 30 человек, и все сдавали экзамен. Если у вас есть 30 посылок вида «Александр сдал экзамен», «Мария сдала экзамен» и аналогичные утверждения для всех остальных учеников, то вы можете сделать вывод: «Весь класс сдал экзамен», и это будет истинным заключением. Однако в большинстве случаев индукция является неполной – вам известно, что какой-то признак есть только у части элементов множества, и вы делаете вывод, что он имеется у всех его элементов. В этом случае истинность заключения не гарантируется. Например, если у вас есть информация только о 25 школьниках, сдавших экзамен, то вы можете предположить, что его сдали все 30 учеников, но это заключение уже носит вероятностный характер. Прим. пер.

Такая структура из четырех этапов украдена у Уэйна Олдфорда.

После того как кто-то из Королевского статистического общества раскритиковал такие методы опроса, представитель руководства Ryanair Майкл О’Лири заявил: «95 % клиентов Ryanair никогда не слышали о Королевском статистическом обществе, 97 % не волнует, что там говорят, и 100 % сказали, что это звучит так, будто его участникам нужно забронировать недорогой отпуск с Ryanair». В другом современном исследовании Ryanair была признана худшей из двадцати европейских авиакомпаний (но у этого опроса свои проблемы с надежностью, поскольку он проводился как раз в то время, когда Ryanair отменила большое количество рейсов).

Ipsos MORI, What the UK Thinks (2015), https://whatukthinks.org/eu/poll/ipsos-mori-141215.

Сообщено в More or Less, 5 October 2018; https://www.bbc.co.uk/programmes/p06n2lmp. Классическая демонстрация этого эффекта представлена в британском комедийном сериале «Да, господин министр», когда высокопоставленный чиновник сэр Хамфри Эпплби показывает, как подходящие наводящие вопросы могут привести к любому желаемому ответу. Этот пример сейчас используется в учебных методах. https://researchmethodsdataanalysis.blogspot.com/2014/01/leading-questions-yes-prime-minister.html.

Иисус же говорил: Отче, прости им, ибо не знают, что делают. И делили одежды Его, бросая жребий (Лк 23:34).

Не следует путать с гаданием [в оригинале используются сходные английские слова sortition и sortilege. Прим. пер.], представляющим собой форму предсказания, в которой очевидно случайные явления используются для определения божественной воли или будущего, что также известно как клеромантия. Примеры существуют во многих культурах, включая гадание с помощью чайных листьев, куриных внутренностей, библейское бросание жребия для определения воли Божьей или гадание по «Книге перемен» («И-Цзин»).

Видеозапись лотереи для вьетнамской войны ищите по адресу: https://www.youtube.com/watch?v=-p5X1FjyD_g; см. также http://www.historynet.com/whats-your-number.htm.

Это как раз и означает возможность распространения результатов конкретного исследования на более широкий класс объектов или ситуаций. В реальности обобщать полученный результат на любые популяции, любые условия и любое время вряд ли реально, поэтому говорят только о некоторой степени соблюдения внешней валидности. Прим. пер.

Подробную информацию об «Опросе о преступности в Англии и Уэльсе» и полицейской статистике преступлений можно получить в Национальной статистической службе Великобритании: https://www.ons.gov.uk/peoplepopulationandcommunity/crimeandjustice.

Информация о весе новорожденных в США: http://www.cdc.gov/nchs/data/nvsr/nvsr64/nvsr64_01.pdf.

Математик сказал бы, что эта кривая отображает плотность распределения. Прим. пер.

Выводы Гаусса не основывались на эмпирических наблюдениях; это была теоретическая форма ошибки измерений, которая оправдывала бы его статистические методы.

Если бы мы записывали массу тела не с шагом в 500 граммов, а более точно, например с шагом в 100 граммов, то гистограмма была бы еще ближе к теоретической плотности распределения. Прим. пер.

Для такого отслеживания будут использоваться более сложные распределения, чем нормальное.

‘Why Going to University Increases Risk of Getting a Brain Tumour’, Mirror Online, 20 June 2016. Исходная статья: A. R. Khanolkar et al., ‘Socioeconomic Position and the Risk of Brain Tumour: A Swedish National Population-Based Cohort Study’, Journal of Epidemiology and Community Health 70 (2016), 1222–8.

Ошибка обращаемости – это систематическая ошибка, при которой в выборке собраны случаи, не представляющие равным образом все категории генеральной совокупности (популяции). Прим. пер.

T. Vigen, http://www.tylervigen.com/spurious-correlations.

Размышления о том, что могло бы произойти, но не произошло. Прим. пер.

Липопротеины низкой плотности (ЛПНП) – белки крови, которые переносят холестерин. Хотя такой белок и называют пренебрежительно «плохим холестерином», на самом деле такие белки вовсе не холестерин, а лишь его переносчики. Прим. пер.

‘MRC/BHF Heart Protection Study of Cholesterol Lowering with Simvastatin in 20,536 High-Risk Individuals: A Randomised Placebo-Controlled Trial’, The Lancet 360 (2002), 7–22.

Такой метод называется слепым (пациенты не знают важных деталей испытания). В нашем случае они не знают, принимают лекарство или плацебо. Если же и экспериментаторы не знают важных деталей испытания, метод называется двойным слепым. Прим. пер.

Cholesterol Treatment Trialists’ (CTT) Collaborators, ‘The Effects of Lowering LDL Cholesterol with Statin Therapy in People at Low Risk of Vascular Disease: Meta-Analysis of Individual Data from 27 Randomised Trials’, The Lancet 380 (2012), 581–90.

Согласно заключению исследователей, для людей с моим базовым риском и без предшествующего заболевания уменьшение ЛПНП на 1 ммоль/л снижает риск серьезных проблем с сердечно-сосудистой системой на 25 %. После начала приема статинов мой уровень ЛПНП снизился на 2 ммоль/л, а значит, ежедневное употребление статинов изменило мой годовой риск развития инфаркта или инсульта примерно на 0,75 × 0,75 = 0,56, то есть снизило мой риск на 44 %. Поскольку у меня риск инфаркта или инсульта за 10 лет составлял примерно 13 %, прием статинов уменьшил бы его до 7 %. Это означает, что прописанные мне статины полезны – и хорошо, что я их действительно принимаю.

Мастэктомия – операция по полному удалению молочной железы. Лампэктомия – удаление опухоли с частичным удалением здоровой ткани. Прим. пер.

Возможно, еще более удивительно и отрадно то, что так много людей согласилось участвовать в испытаниях исключительно для пользы будущих пациентов.

Первоначально государственная, а затем частная британская компания, которая разрабатывает методики повышения эффективности управления с помощью психологии. Прим. пер.

Испытания организации Behavioural Insights Team описаны на сайтах http://www.behaviouralinsights.co.uk/education-and-skills/helping-everyone-reach-their-potential-new-education-results/ и http://www.behaviouralinsights.co.uk/trial-results/measuring-the-impact-of-body-worn-video-cameras-on-police-behaviour-and-criminal-justice-outcomes/.

H. Benson et al., ‘Study of the Therapeutic Effects of Intercessory Prayer (STEP) in Cardiac Bypass Patients: A Multicenter Randomized Trial of Uncertainty and Certainty of Receiving Intercessory Prayer’, American Heart Journal 151 (2006), 934–42.

Хотя A/B-тестирование широко применяется в веб-дизайне, его можно использовать и в других областях – например, написать два электронных письма с каким-либо предложением двум группам людей. Прим. пер.

100

J. Heathcote, ‘Why Do Old Men Have Big Ears?’, British Medical Journal 311 (1995), https://www.bmj.com/content/311/7021/1668. См. также ‘Big Ears: They Really Do Grow as We Age’, The Guardian, 17 July 2013.

101

К сожалению, маловероятно, что на подобные исследования найдется финансирование.

102

На самом деле буква M в аббревиатуре STEM традиционно означает математику (Science, Technology, Engineering and Mathematics). Иногда при добавлении к ним медицины пишут STEMM. Прим. пер.

103

Назван в честь английского статистика Эдварда Симпсона (1922–2019), описавшего парадокс в 1951 году. Впрочем, об этом эффекте упоминал Карл Пирсон еще в 1899 году и шотландский математик Джордж Удни Юл в 1903-м. Прим. пер.

104

‘Waitrose Adds £36,000 to House Price’, Daily Mail, 29 May 2017.

105

‘Fizzy Drinks Make Teenagers Violent’, Daily Telegraph, 11 October 2011.

106

S. Coren and D. F. Halpern, ‘Left-Handedness: A Marker for Decreased Survival Fitness’, Psychological Bulletin 109 (1991), 90–106. Критику см. в работе ‘Left-Handedness and Life Expectancy’, New England Journal of Medicine 325 (1991), 1041–3.

107

J. A. Hanley, M. P. Carrieri and D. Serraino, ‘Statistical Fallibility and the Longevity of Popes: William Farr Meets Wilhelm Lexis’, International Journal of Epidemiology 35 (2006), 802–5.

108

J. Howick, P. Glasziou and J. K. Aronson, ‘The Evolution of Evidence Hierarchies: What Can Bradford Hill’s “Guidelines for Causation” Contribute?’, Journal of the Royal Society of Medicine 102 (2009), 186–94.

109

Менделевская рандомизация использовалась, например, для проверки спорного вопроса о том, приносит ли умеренное потребление алкоголя пользу здоровью. У людей, которые никогда не употребляли алкоголь, как правило, более высокий уровень смертности, чем у умеренно пьющих, но есть разногласия во мнениях, обусловлено это алкоголем или трезвенники менее здоровы по каким-то иным причинам. Одна версия гена связана с пониженной переносимостью алкоголя, поэтому унаследовавшие его люди пьют меньше. Носители гена и те, у кого его нет, должны быть сбалансированы по всем остальным факторам, из-за чего какая-либо систематическая разница в их здоровье может быть приписана именно этому гену – словно в рандомизированном испытании. Исследователи обнаружили, что люди с этим геном, как правило, более здоровы, и пришли к заключению, что в целом алкоголь вреден. Однако для подтверждения такого вывода нужны дополнительные предположения, и споры не утихают. См. Y. Cho et al., ‘Alcohol Intake and Cardiovascular Risk Factors: A Mendelian Randomisation Study’, Scientific Reports, 21 December 2015.

110

Как писал Гальтон, «я ставлю Лондон на первое место по красоте, а Абердин на последнее».

111

M. Friendly et al., ‘HistData: Data Sets from the History of Statistics and Data Visualization’ (2018), https://CRAN.R-project.org/package=HistData.

112

Вот для сравнения российские данные примерно того же времени. Дмитрий Николаевич Анучин приводит величины среднего роста новобранцев в Российской империи для второй половины XIX века: Московская губерния – 164,4 см; Нижегородская – 164,0 см; Варшавская – 162,1 см. Выше всего средний рост призывников в Курляндской губернии – 167,0 см. «Очень высокорослыми рекрутами» именуются люди с ростом выше 177,8 см. (Д. Н. Анучин, «О географическом распределении роста мужского населения России [по данным о всеобщей воинской повинности в Империи за 1874–1883 гг.]: сравнительно с распределением роста в других странах: (с десятью раскрашенными картами)» / [соч.] проф. Д. Н. Анучина. – С.-Петербург: в тип. В. Безобразова и К°, 1889). Прим. пер.

113

Можно было бы проводить прямую, которая минимизирует сумму абсолютных величин этих остатков, а не сумму их квадратов, однако без современных компьютеров это практически невозможно.

114

То есть возвратом. Прим. пер.

115

Например, мы можем предсказать рост дочери, используя формулу: средний рост всех дочерей + 0,33 × (рост матери – средний рост всех матерей).

116

См. статью о методе наименьших квадратов в глоссарии.

117

J. Pearl and D. Mackenzie, The Book of Why: The New Science of Cause and Effect (Basic Books, 2018), p. 471.

118

Прекрасное обсуждение рисков моделирования см. в работе: A. Aggarwal et al., ‘Model Risk – Daring to Open Up the Black Box’, British Actuarial Journal 21:2 (2016), 229–96.

119

По сути, мы говорим, что изменения будут коррелировать с исходными измерениями, даже если в реальности никаких изменений в базовом процессе не происходит. Мы можем выразить это математически. Предположим, я беру случайное наблюдение X из генеральной совокупности с каким-то распределением. Потом беру другое независимое наблюдение Y с тем же распределением и смотрю на их разность Y – X. Справедливо замечательное утверждение: коэффициент корреляции между величиной X – Y и первым наблюдением X равен –1/√2 = –0,71, причем вне зависимости от распределения генеральной совокупности. Например, если у какой-то женщины есть ребенок, а затем ребенок появляется у ее подруги, то они начинают сравнивать вес детей, вычитая вес второго ребенка из веса первого. Тогда эта разность будет иметь корреляцию –0,71 с весом первого ребенка. Объяснение тут простое: если первый ребенок легкий, то мы, по всей вероятности, можем ожидать, что второй будет тяжелее, поэтому разница будет положительной. А если первый ребенок тяжелый, то мы ожидаем, что второй будет легче, и разница между их весом будет отрицательной.

120

L. Mountain, ‘Safety Cameras: Stealth Tax or Life-Savers?’, Significance 3 (2006), 111–13.

121

Слово «линейный» отражает тот факт, что в итоговое уравнение входит линейная комбинация независимых переменных (то есть сумма переменных, умноженных на какие-то коэффициенты). Такая модель называется линейной.

122

Независимые переменные стандартизированы путем вычитания выборочного среднего. Таким образом, чтобы спрогнозировать рост сына, мы используем формулу: 69,2 + 0,33 (рост матери – средний рост матерей) + 0,41 (рост отца – средний рост отцов).

123

Следующая таблица показывает виды множественной регрессии, используемые для различных типов зависимых переменных, а также интерпретацию коэффициента для каждой независимой переменной. (Для просмотра таблицы перейти в текст сноски.)

124

Коэффициент 0,001 логистической регрессии означает, что логарифм для величины шансов смерти понижается примерно на 0,001 на каждого дополнительного пациента в год, то есть на 0,1 на каждых 100 дополнительных пациентов. Это соответствует примерно 10-процентному понижению риска.

125

Данные о «Титанике» можно найти здесь: https://bio304-class.github.io/bio304-fall2017/data-story-titanic.html.

126

Сюда входили дона (Dona), леди (Lady), графиня (Countess), капитан (Capt), полковник (Col), дон (Don), доктор (Dr), майор (Major), преподобный (Rev.), сэр (Sir), йонкхеер (Jonkheer). [Йонкхеер – в Нидерландах обращение к дворянину без титула. Прим. пер.].

127

Мастер – форма обращения к мальчику или юноше. Прим. пер.

128

Чтобы не заставлять всех ждать окончания конкурса (для данных по «Титанику» это 2020 год), Kaggle делит тестовый набор на две части – открытую и закрытую. Создается таблица лидеров, где отображаются только результаты конкурсантов в открытой части, и этот предварительный рейтинг могут видеть все. Однако итоговым рейтингом участников после окончания конкурса станет эффективность, показанная в закрытой части тестового набора.

129

В общем случае чувствительность – это доля истинно положительных наблюдений; специфичность – доля истинно отрицательных наблюдений. Прим. пер.

130

Receiver Operating Characteristic – рабочая характеристика приемника. Прим. пер.

131

Может возникнуть соблазн использовать «абсолютную ошибку», а не квадратичную, то есть если мы указываем вероятность 0,1 для несостоявшегося события, то теряем 0,1 (в то время как для квадратов мы теряем 0,01). Но это, казалось бы, невинное изменение будет очень большим просчетом. Довольно простые теоретические рассуждения показывают, что такое «абсолютное» наказание приведет людей к рациональному преувеличению своей уверенности ради минимизации ожидаемой ошибки и указыванию вероятности 0 % для дождя, даже если на самом деле они считают, что она равна 10 %.

132

Оценка качества работы вычисляется так: (BC – B) / BC = 1 – B / BC. Отсюда получаем 1–0,11 / 0,28 = 0,61.

133

Проверка вероятности осадков: http://www.cawcr.gov.au/projects/verification/POP3/POP3.html.

134

Здесь приставка «пере-» означает избыточность, а не повторность. Прим. пер.

135

‘Electoral Precedent’, xkcd, https://xkcd.com/1122/.

136

Настольная интеллектуальная игра в слова, в России больше известна под названием «Эрудит». Прим. ред.

137

В общем случае имеющиеся данные разбивают на N частей, а затем обучают алгоритм с помощью N – 1 части, а одну часть используют для тестирования. Процедуру повторяют N раз, каждый раз выбирая в качестве тестовой части одну из N частей. Прим. пер.

138

Англ. boosting – усиление. Прим. пер.

139

Для перевода оценки S в вероятность выживания p используется формула p = 1 / (1 + e^>-s). Это преобразование уравнения логистической регрессии log^>e p / (1 – p) = S.

140

По сути, метод LASSO (Least absolute shrinkage and selection operator) отбирает наиболее информативные признаки – те, которые оказывают большее влияние на отклик, поскольку для остальных ставит нулевые коэффициенты. Прим. пер.

141

Bagging – сокращение от Bootstrap aggregating, бутстрэп-агрегирование. Прим. пер.

142

Карл Даль родился в Норвегии в 1866 году, но в 1892 году эмигрировал в Австралию. В 1912 году решил вернуться в Норвегию, но, добравшись до Лондона, поменял планы и отправился в США к родственникам. Прим. пер.

143

Из книги Кэти О’Нил «Убийственные большие данные. Как математика превратилась в оружие массового поражения», в которой приведено множество примеров неправильного использования алгоритмов. [Издана на русском языке: О’Нил К. Убийственные большие данные. Как математика превратилась в оружие массового поражения. М.: АСТ, 2018. Прим. пер.].

144

http://innovation.uci.edu/2017/08/husky-or-wolf-using-a-black-box-learning-model-to-avoid-adoption-errors/.

145

Использование алгоритмов COMPAS и MMR критикуется в книге C. O’Neil, Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy (Penguin, 2016).

146

Также болезнь Гентингтона, хорея Гентингтона или хорея Хантингтона. Названа по имени американского врача Джорджа Хантингтона (1850–1916). При этом заболевании в мозге происходят изменения, которые ведут к изменениям в личности. Прим. пер.

147

Обратный инжиниринг (обратная разработка, обратное проектирование) – исследование некоей системы (устройства, алгоритма, программы), для того чтобы понять схему ее работы. Прим. пер.

148

Иначе – вспомогательная терапия. Прим. пер.

149

NHS, Predict: Breast Cancer (2.1): http://www.predict.nhs.uk/predict_v2.1/.

150

Возможно, исключительно для того, чтобы привлечь финансирование.

151

Когда однажды я предложил группе журналистов четко указывать это в своих статьях, то столкнулся с полнейшим непониманием.

152

Статистика рынка труда в Великобритании, январь 2018 года: https://www.ons.gov.uk/releases/uklabourmarketstatisticsjan2018. Bureau of Labor Statistics, ‘Employment Situation Technical Note 2018’, https://www.bls.gov/news.release/empsit.tn.htm.

153

Изменения в уровне безработицы, определенные по зарплатным ведомостям, основаны на налоговых декларациях работодателей и несколько более точны, их погрешность составляет ±100 000.

154

Часто их называют псевдовыборками. Прим. пер.

155

Слово bootstraps означает ремешки в виде ушка, которые прикрепляются к верхней части обуви, чтобы ее было проще натягивать. В английском языке есть выражение To pull oneself over a fence by one’s bootstraps (буквально – перетащить себя через ограду за ушки своей обуви), которое означает «выпутаться из своих проблем самому». Отсюда и название статистического метода. Прим. пер.

156

Писатель Антуан Гомбо (1607–1684) не был дворянином, а имя шевалье де Мере использовал в своих литературных сочинениях для персонажа, который выражал мысли автора. Впоследствии друзья стали так называть и его самого. Прим. пер.

157

Де Мере считал, что в Варианте 1, когда кость бросают четыре раза с вероятностью успеха 1/6, общая вероятность победы равняется 4 × 1/6 = 2/3. Аналогично для Варианта 2 он полагал, что при 24 подбрасываниях с вероятностью успеха 1/36, вероятность победы составит 24 × 1/36 = 2/3. Студенты часто прибегают к подобным ложным рассуждениям, но ошибку легко заметить: если бы в Варианте 1 у игрока было 12 бросков, то вероятность выигрыша равнялась бы 12 × 1/6 = 2. Правильная аргументация приведена в примечании 2 к этой главе в конце книги.

158

Марен Мерсенн (1588–1648) – французский математик, богослов и философ, организатор кружка, где обсуждались различные научные проблемы. Уже после смерти Мерсенна на основе его кружка была создана Парижская академия наук. Прим. пер.

159

Обсуждение и инструменты для методов моделирования при преподавании статистики см. в работе: M. Pfannkuch et al, ‘Bootstrapping Students’ Understanding of Statistical Inference’, TLRI (2013), and K. Lock Morgan et al., ‘STATKEY: Online Tools for Bootstrap Intervals and Randomization Tests’, ICOTS 9 (2014).

160

Спойлер: правильный ответ – 1/4, или 25 %, или 0,25.

161

Рассмотрим Вариант 1. В данном случае легче найти вероятность проигрыша (это обычный прием в теории вероятностей). Единственный случай, когда мы проигрываем, – если четыре раза подряд выпадает нешестерка. Вероятность выпадения нешестерки равна 1–1/6 = 5/6. Поэтому вероятность выпадения четырех нешестерок подряд составляет 5/6 × 5/6 × 5/6 × 5/6 = (5/6)4 = 625/1296 ≈ 0,48. Поэтому вероятность победы равна 1–0,48 = 0,52. Аналогичные рассуждения для Варианта 2 дают вероятность победы, равную 1 – (35/36)24 = 0,49. Поэтому Вариант 1 чуть более выгоден. Рассуждения также показывают, где ошибся шевалье де Мере – он складывал несовместные вероятности событий. Его рассуждения дают для 12 бросков вероятность 12 × 1/6 = 2, что не особо осмысленно.

162

Ошибка также известна как «закон переставленной условной вероятности». Звучит восхитительно непонятно, но на деле просто означает, что вероятность события А при условии, что произошло событие В, смешивается с вероятностью события В при условии, что произошло событие А.

163

Я благодарен Филиппу Дэвиду за, по-видимому, изобретение этого термина.

164

Англ. propensity – склонность, предрасположенность, тенденция. Вероятность представляется как физическая склонность ситуации приводить к какому-то результату. То есть здесь вероятность становится свойством ситуации, а не последовательности событий (склонности – это не частоты событий, а предполагаемые причины частот). Концепцию обсуждали, в частности, философы Чарльз Пирс и Карл Поппер. Прим. пер.

165

Предполагается, что генератор псевдослучайных чисел хорошо спроектирован, а получаемые числа предназначены для статистического моделирования или аналогичной цели. Они не особо пригодны для криптографических приложений, где предсказуемость можно использовать для взлома кода.

166

«Случай убийства» – когда одно лицо (или группа лиц) подозревается в совершении одного или нескольких связанных убийств. Поэтому массовый расстрел или террористический акт будет считаться одним случаем.

167

Сравнение количества ежедневных убийств с пуассоновским распределением: https://www.ons.gov.uk/peoplepopulationandcommunity/crimeandjustice/compendium/focusonviolentcrimeandsexualoffences/yearendingmarch2016/homicide#statistical-interpretation-of-trends-in-homicides.

168

Чтобы получить такое распределение, нужно определить вероятность двух левшей: 0,2 × 0,2 = 0,04, вероятность двух правшей: 0,8 × 0,8 = 0,64, а вероятность последнего варианта можно найти как 1–0,04 – 0,64 = 0,32.

169

Вот блог Пола: https://pb204.blogspot.com/2011/10/funnel-plot-of-uk-bowel-cancer.html. Сами данные можно загрузить с сайта http://pb204.blogspot.co.uk/2011/10/uploads.html.

170

Одна из крупных агломераций Великобритании, расположенная в Шотландии, включает 48 населенных пунктов, примыкающих к Глазго. Прим. пер.

171

Абрахам де Муавр в юности перебрался в Лондон, где прожил 66 лет, так что он скорее английский математик французского происхождения. Прим. пер.

172

Есть важные исключения – у некоторых распределений такие длинные и тяжелые хвосты, что математических ожиданий у них не существует, поэтому выборочным средним не к чему сходиться.

173

Если мы предположим, что все наши наблюдения независимы и имеют одинаковое распределение, то стандартная ошибка их среднего равна среднеквадратичному отклонению исходного распределения, деленному на квадратный корень из числа элементов в выборке.

174

От др.-греч. στόχος – цель, предположение. Такую неопределенность называют также алеаторной, или объективной. Прим. пер.

175

От др.-греч. έπιστήμη – научное знание, наука, достоверное знание. Такую неопределенность называют также гносеологической, или субъективной. Прим. пер.

176

В главе 12 мы увидим, что сторонники байесовской статистики рады использовать вероятности для эпистемической неопределенности в отношении параметров.

177

Строго говоря, 95-процентный доверительный интервал не означает наличия 95-процентной вероятности, что этот конкретный интервал содержит истинное значение, хотя на практике люди часто неверно интерпретируют именно так.

178

Я имел честь знать обоих, когда они уже были в преклонном возрасте.

179

Более точно, 95-процентные доверительные интервалы при точном нормальном распределении для статистики устанавливаются на уровне плюс-минус 1,96 стандартной ошибки.

180

Погрешность равна

, и максимум этой величины, равный ±1/√n, достигается при p = 0,5. Следовательно, каково бы ни было истинное значение p, погрешность не превзойдет ±1/√n.

181

При 1000 участниках погрешность (в процентах) будет максимум

%3 %. Опросы могут обладать более сложной схемой, чем простая случайная выборка из генеральной совокупности, однако на погрешность это влияет не сильно.

182

Диаграмма «Би-би-си» для опросов находится на сайте: http://www.bbc.co.uk/news/election-2017-39856354.

183

Погрешности для статистических данных об убийствах: https://www.ons.gov.uk/peoplepopulationandcommunity/crimeandjustice/compendium/focusonviolentcrimeandsexualoffences/yearendingmarch2016/homicide#statistical-interpretation-of-trends-in-homicides.

184

J. Arbuthnot, ‘An Argument for Divine Providence…’, Philosophical Transactions 27 (1710), 186–90.

185

Англиканство – протестантское направление христианства, превалирующее в Великобритании. Прим. пер.

186

R. A. Fisher, The Design of Experiments (Oliver and Boyd, 1935), p. 19.

187

Институт в Майзенберге (пригороде Кейптауна) в ЮАР. Прим. пер.

188

Возможно, более естественным вопросом была бы связь между скрещиванием рук и праворукостью (леворукостью), но для изучений этой проблемы было слишком мало левшей.

189

Мы могли бы выбрать другую статистику, которая отражает связь (например, отношение шансов), однако фактически получили бы тот же результат.

190

Всего существует 54 × 53 × 52 … × 2 × 1 перестановок. Это число обозначается 54! (читается «54 факториал»). Примерно это число равно 2 и 71 нуль после двойки. Обратите внимание, что число способов перетасовать колоду карт равно 52! так что, даже если бы мы перебирали миллион миллионов комбинаций в секунду, число лет, которое бы потребовало, чтобы перебрать все возможные комбинации, имело бы 48 нулей, в то время как возраст Вселенной сейчас оценивается всего в 14 000 000 000 лет. Вот почему мы можем быть абсолютно уверены, что за всю историю карточных игр не было двух колод, перетасованных в точности одинаково.

191

Иначе – P-уровень значимости. Прим. пер.

192

Для вычисления можно воспользоваться числом сочетаний. У нас есть 8 чашек, из них нужно выбрать те четыре, в которых молоко наливали в чай (тогда остальные четыре чашки автоматически будут идентифицированы верно). Если мы действуем наугад, то это значит, что нам требуется случайно вытащить 4 конкретных предмета из 8. Общее число способов сделать это равно

. Нас устроит

способ. Следовательно, вероятность просто угадать равна 1/70. Прим. пер.

193

На самом деле только в одном случае из 70 мы можем получить результат не хуже этого. Точнее, в нашем конкретном эксперименте «не хуже» означает «столько же», поскольку результат лучше невозможен (верно определены все чашки). Прим. пер.

194

Метод состоит в вычислении для каждого из 412 человек в тестовом наборе разницы между среднеквадратичными ошибками прогноза для двух алгоритмов; получившееся множество из 412 разностей имеет среднее –0,0027 и стандартное отклонение 0,1028. Поэтому стандартная ошибка для оценки «истинной» разности составляет

, и тогда t-статистика = оценка / стандартная ошибка = –0,0027/0,0050 = –0,54. Это также называют парным t-критерием Стьюдента, поскольку он основан на множестве разностей между парами чисел.

195

Вероятность того, что из двух испытаний хотя бы одно даст значимый результат, равна единице минус вероятность того, что оба результата незначимы = 1–0,95 × 0,95 = 0,0975, что примерно равно 0,10.

196

С помощью этого экстравагантного эксперимента ученые хотели не столько проверить чудесные свойства лосося, сколько продемонстрировать высокий риск получения ложноположительных результатов при многократном тестировании. Эксперимент подтвердил такой риск. Прим. пер.

197

Исследование мертвого лосося описано на странице http://prefrontal.org/files/posters/Bennett-Salmon-2009.jpg.

198

Карло Эмилио Бонферрони (1892–1960) – итальянский математик. Прим. пер.

199

ЦЕРН (от фр. CERN – Conseil Européen pour la Recherche Nucléaire, Европейский совет по ядерным исследованиям) – европейская организация, занимающаяся ядерными исследованиями. Прим. пер.

200

Объявление ЦЕРН о бозоне Хиггса можно найти по адресу: http://cms.web.cern.ch/news/observation-new-particle-mass-125-gev.

201

В русском языке нет устоявшегося перевода этого термина. Его можно передать как «Эффект поиска в другом месте». Суть эффекта – наблюдение оказывается значимым только по случайности, потому что пространство проверяемых параметров очень велико. Аналогия: если в группе из 25 человек у кого-то день рождения совпадает с вашим, то это довольно удивительно, поскольку такая вероятность достаточно мала. Но если вы в той же группе станете искать какие-нибудь совпадающие дни рождения, то в таком совпадении не будет ничего удивительного – шансы на это больше 0,5. В первом случае вы сравниваете один конкретный день (свой), во втором – пространство сравнений резко расширяется (для 25 человек можно составить множество пар), поэтому вероятность обнаружить какое-то совпадение сильно увеличивается. Вспомните также пример с поисками неожиданных корреляций в одной из предыдущих глав: в очень большом наборе данных что-нибудь да найдется. Прим. пер.

202

Первоначальная теория Неймана и Пирсона включала идею «принятия» нулевой гипотезы, но эта часть их теории теперь не используется.

203

D. Spiegelhalter, O. Grigg, R. Kinsman and T. Treasure, ‘Risk-Adjusted Sequential Probability Ratio Tests: Applications to Bristol, Shipman and Adult Cardiac Surgery’, International Journal for Quality in Health Care 15 (2003), 7–13.

204

Здесь P-значение – одностороннее, потому что нас интересует только повышение уровня смертности, а не снижение. Поэтому P-значение – это вероятность того, что пуассоновская случайная величина со средним 22,5 примет значение не меньше 40. Стандартное программное обеспечение даст для такой вероятности 0,004.

205

Руководили этими статистиками Абрахам Вальд в США и Джордж Барнард в Соединенном Королевстве. Барнард до войны был чистым математиком (и коммунистом), а во время войны, как и многие ученые, начал заниматься военными применениями статистики. Позднее он разрабатывал официальный британский стандарт для презерватива (BS 3704).

206

Статистика имеет простую форму: ПКОВ = 0.69 × кумулятивное количество наблюдаемых смертей – кумулятивное количество ожидаемых смертей. Пороговые значения определяются величиной log((1 − β)/α).

207

D. Szucs and J. P. A. Ioannidis, ‘Empirical Assessment of Published Effect Sizes and Power in the Recent Cognitive Neuroscience and Psychology Literature’, PLOS Biology 15:3 (2 March 2017), e2000797.

208

J. P. A. Ioannidis, ‘Why Most Published Research Findings Are False’, PLOS Medicine 2:8 (August 2005), e124.

209

Стандартная доза алкоголя отличается в разных странах, например в США это 14 граммов, в Великобритании – 8 граммов. Многие страны приняли вариант Всемирной организации здравоохранения – 10 граммов. Прим. пер.

210

C. S. Knott et al., ‘All Cause Mortality and the Case for Age Specific Alcohol Consumption Guidelines: Pooled Analyses of up to 10 Population Based Cohorts’, British Medical Journal 350 (10 February 2015), h384. Об этом было сообщено под заголовком: ‘Alcohol Has No Health Benefits After All’, The Times, 11 February 2015.

211

D. J. Benjamin et al., ‘Redefine Statistical Significance’, Nature Human Behaviour 2 (2018), 6–10.

212

Артур Боули (1869–1957) – британский статистик и экономист. Прим. пер.

213

Томас Байес умер в 1761 году, понятия не имея о своем научном наследии: его основополагающая статья была опубликована только после его смерти, в 1763-м, а имя не связывалось с этим подходом вплоть до XX века.

214

Это значительное преувеличение. Фактически в своей работе «Очерки к решению проблемы доктрины шансов» Байес дал только определение условной вероятности, и никакого утверждения, которое мы называем сейчас теоремой Байеса, у него нет. Теорема была сформулирована Лапласом в начале XIX века. Прим. пер.

215

Некоторые даже могут заявить, что это была идеологическая обработка.

216

Еще раз подчеркнем, что 1/5 – это не вероятность, поэтому запись 1/5 двусмысленна и лучше писать 1 к 5 или хотя бы 1:5. В русском языке слово «шансы» имеет два значения. Во-первых, оно часто синонимично слову «вероятность» (мы скажем, что вероятность выпадения шестерки равна 1/6 и шансы на выпадение шестерки равны 1/6). Во-вторых, мы можем сказать, что шансы на выпадение шестерки 1:5 (1 к 5). Именно в этом смысле употребляет термин автор. Прим. пер.

217

В нашей литературе теорема Байеса обычно формулируется на языке вероятностей, а не шансов. Прим. пер.

218

Лат. a prioi «от предшествующего», a posteriori «от последующего». Априорные знания получены заранее, до опыта, апостериорные – после опыта. Теорема Байеса дает возможность пересчитать априорные вероятности гипотез в апостериорные, поскольку произошедшие события их изменили. Прим. пер.

219

T. E. King et al., ‘Identification of the Remains of King Richard III’, Nature Communications 5 (2014) 5631.

220

Указания по отношениям правдоподобия: http://enfsi.eu/wp-content/uploads/2016/09/m1_guideline.pdf.

221

Статья об использовании байесовской теории в суде: ‘A Formula for Justice’, The Guardian, 2 October 2011.

222

В покере – туз, король, дама, валет и десятка одной масти. Прим. пер.

223

Автор ошибается. Вероятность получить роял-флеш составляет

. Видимо, подразумевается стрит-флеш (пять карт одной масти, идущие подряд): вероятность такой комбинации действительно близка к 1 / 72 000 (точнее, примерно 1 / 72 193). Прим. пер.

224

Архиепископ Кентерберийский – глава государственной Церкви Англии. Прим. пер.

225

Его точные слова: «Дано количество раз, когда неизвестное событие случилось и не случилось: требуются шансы на то, что вероятность его появления в одном испытании лежит между любыми двумя степенями вероятности, которые можно указать». В целом тут все довольно понятно, за исключением того, что в современной терминологии мы поменяли бы слова «шансы» и «вероятность».

226

Будучи пресвитерианским священником, он называл его просто «стол».

227

Формула для такого распределения – 60p^>2(1−p)^>3, то есть частный случай бета-распределения – B(3,4). Если считать априорное распределение равномерным, то апостериорное распределение для положения белого шара, при условии, что бросили n красных шаров, из которых r оказались левее белого, задается формулой

то есть это бета-распределение B(r + 1, n – r + 1).

228

Интуиция не должна давать 2/5. Бросим на стол всего один красный шар. Если вам сказали, что он слева, то доля красных шаров слева от белого равна 1 / 1 = 1, но вряд ли ваша интуиция согласится, что среднее положение белого шара равно 1, то есть он лежит у правого края стола. Прим. пер.

229

Онлайн-панель – это группа людей, которые согласились участвовать в онлайн-исследованиях. Они регистрируются на каком-либо сайте и регулярно предоставляют информацию о себе. Прим. пер.

230

В английском языке есть пословица «Нельзя сделать шелковый кошелек из свиного уха». Прим. пер.

231

Подвешенный парламент – парламент, в котором ни одна из партий не имеет большинства. Прим. пер.

232

D. K. Park, A. Gelman and J. Bafumi, ‘Bayesian Multilevel Estimation with Poststratification: State-Level Estimates from National Polls’, Political Analysis 12 (2004), 375–85; Результаты опросов YouGov взяты с сайта: https://yougov.co.uk/news/2017/06/14/how-we-correctly-called-hung-parliament/.

233

K. Friston, ‘The History of the Future of the Bayesian Brain’, Neuroimage 62:2 (2012), 1230–33.

234

N. Polson and J. Scott, AIQ: How Artificial Intelligence Works and How We Can Harness Its Power for a Better World (Penguin, 2018), p. 000.

235

R. E. Kass and A. E. Raftery, ‘Bayes Factors’, Journal of the American Statistical Association 90 (1995), 773–95.

236

Напоминаем, что это означает, что при многократном повторении 95 % таких интервалов будут включать истинное значение, но мы ничего не можем сказать о каком-то конкретном интервале.

237

J. Cornfield, ‘Sequential Trials, Sequential Analysis and the Likelihood Principle’, American Statistician 20 (1966), 18–23.

238

И тем не менее я по-прежнему предпочитаю байесовский подход.

239

Проект в 2011 году запустил Брайан Нозек из Виргинского университета. Он и его коллеги взялись проверить 100 исследований, выполненных в 2008 году, результаты которых были опубликованы в трех психологических журналах. Они старались максимально придерживаться условий оригинальных экспериментов и даже консультировались с их авторами. Результаты проекта были опубликованы в 2015 году. Прим. пер.

240

Open Science Collaboration, ‘Estimating the Reproducibility of Psychological Science’, Science 349:6251 (28 August 2015), aac4716.

241

A. Gelman and H. Stern, ‘The Difference Between “Significant” and “Not Significant” Is Not Itself Statistically Significant’, American Statistician 60:4 (November 2006), 328–31.

242

Падение началось вскоре после запуска Facebook, но данные не могут сказать нам, что это – корреляция или причинно-следственная связь.

243

Ronald Fisher, Presidential Address to the first Indian Statistical Congress, 1938, Sankhyā 4(1938), 14–17.

244

В английском языке термин post mortem (патологоанатомическое вскрытие трупа) имеет переносное значение «разбор действий», «обсуждение причин неудачи», «итоговый анализ». Прим. пер.

245

См. ‘The Reinhart and Rogoff Controversy: A Summing Up’, New Yorker, 26 April 2013.

246

Эта ошибка в сочетании с другими критическими замечаниями, как утверждается, повлияла на выводы в исследовании, однако это активно оспаривается авторами.

247

‘AXA Rosenberg Finds Coding Error in Risk Program’, Reuters, 24 April 2010.

248

История с Харконеном изложена в статье: ‘The Press-Release Conviction of a Biotech CEO and its Impact on Scientific Research’, Washington Post, 13 September 2013.

249

D. Fanelli, ‘How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data’, PLOS ONE 4:5 (29 May 2009), e5738.

250

U. Simonsohn, ‘Just Post It: The Lesson from Two Cases of Fabricated Data Detected by Statistics Alone’, Psychological Science 24:10 (October 2013), 1875–88.

251

P-хакинг (P-hacking) – это изменение результатов исследований с целью добиться нужного P-значения. Такая практика манипулирования данными служит для того, чтобы показать статистические значения, подтверждающие желаемый результат, который обычно в чем-то выгоден либо исследователям, либо спонсорам. Прим. ред.

252

J. P. Simmons, L. D. Nelson and U. Simonsohn, ‘False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant’, Psychological Science 22:11 (November 2011), 1359–66.

253

Студентов спрашивали, сколько времени они наслаждаются едой в закусочной, чему равен квадратный корень из 100, согласны ли они с утверждением, что «компьютеры – это сложные машины», сколько лет их отцу и матери, какова их политическая ориентация, пользуются ли они утренними специальными предложениями в ресторанах, кто из четырех канадских квотербеков выиграет приз, как часто они ссылаются на прошлое как «на старые добрые времена» и так далее.

254

Англ. HARKing образовано от Hypotheses After the Results are Known. Прим. пер.

255

L. K. John, G. Loewenstein and D. Prelec, ‘Measuring the Prevalence of Questionable Research Practices with Incentives for Truth Telling’, Psychological Science 23:5 (May 2012), 524–32.

256

D. Spiegelhalter, ‘Trust in Numbers’, Journal of the Royal Statistical Society: Series A (Statistics in Society) 180:4 (2017), 948–65.

257

P. Sumner et al., ‘The Association Between Exaggeration in Health Related Science News and Academic Press Releases: Retrospective Observational Study’, British Medical Journal 349 (10 December 2014), g7015.

258

‘Nine in 10 People Carry Gene Which Increases Chance of High Blood Pressure’, Daily Telegraph, 15 February 2010.

259

‘Why Binge Watching Your TV Box-Sets Could Kill You’, Daily Telegraph, 25 July 2016.

260

Я иногда следую тому, что можно назвать «принципом Граучо», – из-за парадоксального заявления комика Граучо Маркса, что он никогда не вступит в клуб, который согласится его принять. Поскольку тексты прошли сквозь множество фильтров, поощряющих искажения и отбор, уже сам факт того, что я слышу какое-то утверждение, основанное на статистике, – повод не доверять ему.

261

Слова Бема взяты из ‘Daryl Bem Proved ESP Is Real: Which Means Science Is Broken’, Slate, 17 May 2017.

262

В одной онлайн-статье приводятся такие слова Бема: «Я за строгость… но предпочитаю, чтобы ею занимались другие. Я понимаю ее важность – пусть некоторые развлекаются, но у меня нет терпения на это… Если вы посмотрите на мои прошлые эксперименты, они всегда были риторическими приемами. Я собрал данные, чтобы показать, как формировалась моя точка зрения. Я использовал эти данные для убеждения и никогда по-настоящему не заботился о том, будет кто-нибудь это повторять или нет».

263

Краткая характеристика Гельмана была такой: «Исследование Бема – дерьмо».

264

I. J. Jacobs et al., ‘Ovarian Cancer Screening and Mortality in the UK Collaborative Trial of Ovarian Cancer Screening (UKCTOCS): A Randomised Controlled Trial’, The Lancet 387:10022 (5 March 2016), 945–56.

265

‘Ovarian Cancer Blood Tests Breakthrough: Huge Success of New Testing Method Could Lead to National Screening in Britain’, Independent, 5 May 2015.

266

M. R. Munafò et al., ‘A Manifesto for Reproducible Science’, Nature Human Behaviour 1 (2017), a0021.

267

Адрес Open Science Framework: https://osf.io/.

268

Кристи Ашванден – американская журналистка и популяризатор науки. Сайт fivethirtyeight.com объединяет блоги, посвященные анализу опросов общественного мнения, экономике, политике, спорту. Прим. пер.

269

История Ашванден взята из статьи ‘Science Won’t Settle the Mammogram Debate’, FiveThirtyEight, 20 October 2015.

270

271

A. Gelman and D. Weakliem, ‘Of Beauty, Sex and Power’, American Scientist 97:4 (2009), 310–16.

272

U. Simonsohn, L. D. Nelson and J. P. Simmons, ‘P-Curve and Effect Size: Correcting for Publication Bias Using Only Significant Results’, Perspectives on Psychological Science 9:6 (November 2014), 666–81.

273

Больше о разумной открытости смотрите в работе: Royal Society, Science as an Open Enterprise (2012). Взгляды Оноры О’Нил на степень доверия блестяще объяснены в ее выступлении на конференции TedX ‘What We Don’t Understand About Trust’ (June 2013).

274

Дэвид Фёрт объясняет методологию для экзитполов здесь: https://warwick.ac.uk/fac/sci/statistics/staff/academic-research/firth/exit-poll-explainer/.

275

Нет подтверждений, что Пэдди Эшдаун выполнил свое обещание, хотя ему до сих пор припоминают эти слова. После одной радиопередачи, на которой обсуждались те выборы, нам вынесли большую шоколадную шляпу и предложили поделить на всех.

276

R. E. Kass et al., ‘Ten Simple Rules for Effective Statistical Practice’, PLOS Computational Biology 12:6 (9 June 2016), e1004961.

277

Автор смешивает воедино аксиомы вероятности и ее свойства. Аксиомы вероятности – неотрицательность, ограниченность всего вероятностного пространства единицей и аддитивность (в общем случае – счетная аддитивность). Другие приведенные свойства вытекают из аксиом. Прим. пер.

278

Как уже отмечалось выше, за определение независимости обычно берется равенство P(AB) = P(A)P(B), поскольку в этом случае не надо требовать P(B) ≠ 0, что необходимо, чтобы иметь право писать P(A|B). Прим. пер.

279

В определении выборочной дисперсии используется n, то есть

. Если взять n-1, то есть

получится так называемая исправленная (несмещенная) выборочная дисперсия. Такое исправление делается, поскольку выборочная дисперсия представляет собой смещенную оценку реальной дисперсии D(X), то есть E(s^>2) ≠ D(X). Если же умножить s^>2 на

, то есть получить , то исправленная выборочная дисперсия будет уже несмещенной оценкой дисперсии, то есть E(s^>2) = D(X). При больших n величины s^>2 и

почти не отличаются между собой, так что на практике имеет смысл использовать исправленную дисперсию только при небольших n (примерно при n < 30). Прим. пер.

280

Строго говоря, это не эквивалентно. Равенство p(BA) = p(B)p(A) может быть верно даже для событий с нулевой вероятностью, в то время как для того, чтобы написать условную вероятность p(B|A), мы должны предварительно принять, что p(A) ≠ 0. Прим. пер.

281

В отечественной терминологии случайные величины, имеющие плотность, принято называть абсолютно непрерывными. Прим. пер.

282

R – язык программирования для статистической обработки данных. Прим. пер.