Искусство статистики. Как находить ответы в данных - [13]

Шрифт
Интервал


Большие совокупности данных обычно характеризуются несколькими параметрами положения и разброса, а пример с сексуальными партнерами доказал, что эти параметры позволяют существенно продвинуться в понимании общей картины. Однако ничто не заменит простого внимательного просмотра данных, и следующий пример показывает, что хорошая визуализация особенно полезна при намерении уловить закономерности в большом и сложном наборе чисел.


Взаимосвязи между переменными

Выше ли показатели выживаемости в более загруженных больницах?

Отмечается значительный интерес к так называемому эффекту масштаба в хирургии – утверждению, что в более загруженных больницах показатели выживаемости лучше, возможно, потому, что там выше эффективность и врачи имеют шанс приобрести больше опыта. На рис. 2.5 отображены показатели выживаемости детей в течение 30 дней после операций на сердце в больницах Великобритании в зависимости от количества прооперированных детей. На диаграмме 2.5(a) отображены данные о детях до 1 года за 1991–1995 годы (об этом периоде рассказывалось в начале предыдущей главы), поскольку именно эта возрастная группа отличается повышенным риском и находилась в центре внимания бристольского расследования. На диаграмме 2.5(b) представлены данные обо всех детях до 16 лет за 2012–2015 годы (также указаны в табл. 1.1); данных о детях до 1 года за этот период нет. По горизонтальной оси откладывается количество операций, а по вертикальной – уровень выживаемости[54].


Рис. 2.5

Диаграммы рассеяния показателей выживаемости в зависимости от количества операций на сердце у детей. Для (a) коэффициент корреляции Пирсона равен 0,59, а ранговый коэффициент корреляции – 0,85. Для (b) коэффициент корреляции Пирсона равен 0,17, а ранговый коэффициент корреляции –0,03


Данные за 1991–1995 годы на диаграмме 2.5(a) демонстрируют явный выброс – небольшую больницу с низким показателем выживаемости в 71 %. Это Бристольская больница, низкие показатели которой и последующее расследование мы обсуждали в главе 1. Однако если данные об этой больнице убрать (попробуйте закрыть эту точку пальцем), то вид данных за 1991–1995 годы подтверждает предположение о более высоком уровне выживаемости в больницах, где проводят больше операций.

Прямую или обратную зависимость между величинами на диаграмме рассеяния удобно выражать одним числом. Чаще всего для этого используется коэффициент корреляции Пирсона – идея, изначально предложенная Фрэнсисом Гальтоном, но официально закрепленная в работе Карла Пирсона, одного из основоположников современной статистики, в 1895 году[55].

Коэффициент корреляции Пирсона принимает значения от – 1 до 1 и показывает, насколько близко к прямой расположены точки на диаграмме. Коэффициент равен 1, если все точки лежат на прямой с положительным наклоном (чем больше одна величина, тем больше другая), и – 1, если все точки лежат на прямой с отрицательным наклоном (чем больше одна величина, тем меньше другая). Корреляция, близкая к 0, может свидетельствовать о случайном разбросе точек или о какой-либо иной зависимости, при которой отсутствует устойчивый возрастающий или убывающий тренд. Примеры таких случаев приведены на рис. 2.6.


Рис. 2.6

Два набора (вымышленных) данных, для которых коэффициент корреляции Пирсона будет примерно равен 0. Совершенно ясно, что это не говорит об отсутствии зависимости между двумя величинами. Из чудесной подборки диаграмм[56]Альберто Каиро[57]


Для данных за 1991–1995 годы, представленных на диаграмме 2.5(a), коэффициент корреляции Пирсона равен 0,59. Это подкрепляет связь между увеличением количества и ростом выживаемости. При удалении данных о Бристольской больнице коэффициент повышается до 0,67, поскольку оставшиеся точки ближе к прямой линии.

Другой критерий – ранговый коэффициент корреляции Спирмена, названный в честь английского психолога Чарльза Спирмена (создателя двухфакторной теории интеллекта[58]), – зависит не от конкретных численных значений, а от их рангов, то есть от занимаемых ими мест, если их упорядочить по величине. Это означает, что он может быть близок к 1 или –1, если точки близки к линии со стабильным подъемом или понижением, даже если эта линия не является прямой. Ранговый коэффициент Спирмена для данных на диаграмме 2.5(a) равен 0,85, что существенно выше, чем коэффициент Пирсона, поскольку точки ближе не к прямой, а к возрастающей кривой.

Для данных за 2012–2015 годы на диаграмме 2.5(b) коэффициент корреляции Пирсона равен 0,17, а ранговый коэффициент Спирмена – 0,03, что говорит об отсутствии четкой связи между количеством операций и уровнем выживаемости. Однако при таком небольшом количестве больниц коэффициент корреляции может быть очень чувствителен к отдельным точкам-данным: если мы уберем самую маленькую больницу с высоким уровнем выживаемости, то коэффициент корреляции Пирсона резко повысится до 0,42.

Коэффициенты корреляции – это просто некоторые характеристики связей, и их нельзя использовать для вывода о наличии взаимозависимости между количеством операций и показателем выживаемости, не говоря уже о том, почему такая связь может существовать


Рекомендуем почитать
Стратегии решения математических задач

Любую задачу можно решить разными способами, однако в учебниках чаще всего предлагают только один вариант решения. Настоящее умение заключается не в том, чтобы из раза в раз использовать стандартный метод, а в том, чтобы находить наиболее подходящий, пусть даже и необычный, способ решения.В этой книге рассказывается о десяти различных стратегиях решения задач. Каждая глава начинается с описания конкретной стратегии и того, как ее можно использовать в бытовых ситуациях, а затем приводятся примеры применения такой стратегии в математике.


Вначале была аксиома. Гильберт. Основания математики

Давид Гильберт намеревался привести математику из методологического хаоса, в который она погрузилась в конце XIX века, к порядку посредством аксиомы, обосновавшей ее непротиворечиво и полно. В итоге этот эпохальный проект провалился, но сама попытка навсегда изменила облик всей дисциплины. Чтобы избавить математику от противоречий, сделать ее «идеальной», Гильберт исследовал ее вдоль и поперек, даже углубился в физику, чтобы предоставить квантовой механике структуру, названную позже его именем, — гильбертово пространство.


Симпсоны и их математические секреты

Саймон Сингх рассказывает о самых интересных эпизодах мультсериала, в которых фигурируют важнейшие математические идеи – от числа π и бесконечности до происхождения чисел и самых сложных проблем, над которыми работают современные математики.Книга будет интересна поклонникам сериала «Симпсоны» и всем, кто увлекается математикой.На русском языке публикуется впервые.


Жар холодных числ и пафос бесстрастной логики

Цель книги доктора философских наук Б. В. Бирюкова и кандидата философских наук В. Н. Тростникова - создать общую картину подготовки и развития логико-математических аспектов кибернетики. Авторы рассказывают о длительном развитии науки логики, возникшей еще в Древней Греции, прослеживают непрерывающуюся нить преемственности, тянущуюся от Аристотеля к "чуду XX века" - быстродействующим кибернетическим устройствам.


Истина и красота: Всемирная история симметрии

На протяжении многих веков симметрия оставалась ключевым понятием для художников, архитекторов и музыкантов, однако в XX веке ее глубинный смысл оценили также физики и математики. Именно симметрия сегодня лежит в основе таких фундаментальных физических и космологических теорий, как теория относительности, квантовая механика и теория струн. Начиная с древнего Вавилона и заканчивая самыми передовыми рубежами современной науки Иэн Стюарт, британский математик с мировым именем, прослеживает пути изучения симметрии и открытия ее основополагающих законов.


Простая одержимость: Бернхард Риман и величайшая нерешенная проблема в математике

Сколько имеется простых чисел, не превышающих 20? Их восемь: 2, 3, 5, 7, 11, 13, 17 и 19. А сколько простых чисел, не превышающих миллиона? Миллиарда? Существует ли общая формула, которая могла бы избавить нас от прямого пересчета? Догадка, выдвинутая по этому поводу немецким математиком Бернхардом Риманом в 1859 году, для многих поколений ученых стала навязчивой идеей: изящная, интуитивно понятная и при этом совершенно недоказуемая, она остается одной из величайших нерешенных задач в современной математике.


Основы реальности. 10 фундаментальных принципов устройства Вселенной

Один из лучших популяризаторов науки Фрэнк Вильчек в доступной форме описывает основные составляющие физической реальности — пространство, время, материю, энергию и динамическую сложность. Вы узнаете о теории Большого взрыва и возникновении Вселенной, познакомитесь с одними из крупнейших проектов современности: охотой на частицу Хиггса и поиском гравитационных волн, положивших начало новому виду «многоканальной» астрономии. Книга лауреата Нобелевской премии по физике для всех, кто хочет приблизиться к пониманию устройства Вселенной.


Десять уравнений, которые правят миром. И как их можете использовать вы

Если вы сомневались, что вам может пригодиться математика, эта книга развеет ваши сомнения. Красота приведенных здесь 10 уравнений в том, что пронизывают все сферы жизни, будь то грамотные ставки, фильтрование значимой информации, точность прогнозов, степень влияния или эффективность рекламы. Если научиться вычленять из происходящего данные и математические модели, то вы начнете видеть взаимосвязи, словно на рентгене. Более того, вы сможете управлять процессами, которые другим кажутся хаотичными. В этом и есть смысл прикладной математики. На русском языке публикуется впервые.


Бесконечная сила

Популяризатор науки мирового уровня Стивен Строгац предлагает обзор основных понятий матанализа и подробно рассказывает о том, как они используются в современной жизни. Автор отказывается от формул, заменяя их простыми графиками и иллюстрациями. Эта книга – не сухое, скучное чтение, которое пугает сложными теоретическими рассуждениями и формулами. В ней много примеров из реальной жизни, которые показывают, почему нам всем нужна математика. Отличная альтернатива стандартным учебникам. Книга будет полезна всем, кто интересуется историей науки и математики, а также тем, кто хочет понять, для чего им нужна (и нужна ли) математика. На русском языке публикуется впервые.


Парадокс упражнений

Если упражнения полезны, почему большинство их избегает? Если мы рождены бегать и ходить, почему мы стараемся как можно меньше двигаться? Действительно ли сидячий образ жизни — это новое курение? Убивает ли бег колени и что полезнее — кардио- или силовые тренировки? Дэниел Либерман, профессор эволюционной биологии из Гарварда и один из самых известных исследователей эволюции физической активности человека, рассказывает, как мы эволюционировали, бегая, гуляя, копая и делая другие — нередко вынужденные — «упражнения», а не занимаясь настоящими тренировками ради здоровья. Это увлекательная книга, после прочтения которой вы не только по-другому посмотрите на упражнения (а также на сон, бег, силовые тренировки, игры, драки, прогулки и даже танцы), но и поймете, что для борьбы с ожирением и диабетом недостаточно просто заниматься спортом.