Искусство статистики. Как находить ответы в данных - [11]

Шрифт
Интервал


Эти параметры также называются показателями положения центра распределения.

Интерпретация термина «среднее» как «среднее арифметическое» дает повод для старых шуток о том, что почти у всех людей число ног превышает среднее (которое, по оценкам, примерно равно 1,99999) и что у человека в среднем одно яичко. Однако среднее арифметическое может не подходить не только при измерении ног и яичек. Вычисленное таким образом среднее число сексуальных партнеров или средний доход по стране может иметь крайне мало общего с представлением большинства людей из-за сильного влияния больших значений в выборке, которые тянут среднее арифметическое вверх[45]: подумайте об Уоррене Битти или Билле Гейтсе (в отношении числа сексуальных партнеров и дохода соответственно).

Средние значения способны сильно вводить в заблуждение, когда исходные данные имеют не симметричное распределение, а сильно перекошенное в какую-либо сторону (как при догадках о количестве драже). Как правило, так происходит при наличии большой группы стандартных случаев и хвоста из нескольких высоких (скажем, величина дохода) или низких (число ног) значений. Я могу практически гарантированно утверждать, что вы гораздо меньше рискуете умереть в следующем году по сравнению с людьми вашего возраста и пола (если средний риск вычислять как среднее арифметическое). Например, согласно таблицам смертности для Соединенного Королевства, 1 % 63-летних мужчин не доживают до 64-летия. Однако многие из тех, кто умрет, уже серьезно больны, а потому риск для подавляющего большинства (тех, кто относительно здоров) меньше, чем средний.

К сожалению, когда в СМИ пишут о среднем, часто непонятно, следует это толковать как среднее арифметическое или как медиану. Например, Национальная статистическая служба Великобритании вычисляет средний недельный заработок (который рассчитывается как среднее арифметическое), а также публикует медианные заработки, предоставляемые местными органами. Это позволяет отличить «средний доход» (среднее арифметическое) от «дохода среднего человека» (медиана). Цены на дома имеют крайне асимметричное распределение с длинным правым хвостом элитной недвижимости, поэтому официальные индексы для цен на жилье указываются в виде медианных значений. Однако обычно пишут о «цене в среднем», что является весьма неоднозначным термином. Это «цена среднего дома» (то есть медиана)? Или «средняя цена дома» (то есть среднее арифметическое)? Как видите, перестановка слов имеет большое значение.


А теперь пришло время обнародовать результаты нашего эксперимента с мудростью толпы; может, он не такой захватывающий, как определение веса быка, зато с чуть большим количеством голосов, чем у Гальтона.

Из-за наличия длинного правого хвоста среднее арифметическое 2408 было бы плохой оценкой, а мода (чаще других названное значение) 10 000, похоже, отражает склонность людей выбирать круглые числа. Поэтому предпочтительнее последовать примеру Гальтона и использовать в качестве общей оценки медиану. Она равна 1775, хотя на самом деле в банке находилось 1616 драже[46]. Правильно это число угадал только один человек, 45 % дали оценки ниже этого значения, а 55 % – выше. Поэтому наблюдается небольшая асимметрия, и мы говорим, что истинное значение находится на 45-м процентиле[47]. Медиана, которая является 50-м процентилем, дала избыточную оценку: 1775–1616 = 159 и оказалась примерно на 10 % больше правильного ответа. Только каждый десятый человек указывал оценку лучше, чем полученное медианное значение. Таким образом, мудрость толпы оказалась вполне на уровне, а именно гораздо ближе к истине, чем 90 % отдельных людей.


Разброс распределения данных

Свести распределение к единственному числу недостаточно – нужно иметь представление о разбросе данных (рассеивании, отклонении от среднего). Например, знание среднего размера обуви взрослого мужчины никак не поможет обувной фабрике определить, сколько пар обуви каждого размера производить. Один размер не годится для всех, что прекрасно иллюстрируют пассажирские кресла в самолетах.

В табл. 2.1 приведены статистические данные для выборки по драже. Она предлагает три способа демонстрации разброса. Естественный вариант – размах[48], однако он крайне чувствителен к экстремальным значениям, таким как весьма странное предположение о наличии в банке 31 337 драже[49]. Напротив, на интерквартильный размах такие выбросы не очень влияют. Интерквартильный размах – это разность между третьим и первым квартилем (то есть 75-м и 25-м процентилем); иными словами, сюда входит «центральная половина» всех чисел, в нашем случае – от 1109 до 2599 драже. Ящик на диаграмме типа «ящик с усами» как раз и включает интерквартильный размах. Наконец, в качестве меры разброса широко используется стандартное (среднеквадратичное) отклонение. Но поскольку его сложнее вычислять и оно сильно подвержено влиянию выбросов, оно лучше всего подходит для симметричных и хорошо себя ведущих данных[50]. Например, удаление из выборки одного (почти гарантированно ошибочного) числа 31 337 приводит к уменьшению среднеквадратичного отклонения с 2422 до 1398


Рекомендуем почитать
Стратегии решения математических задач

Любую задачу можно решить разными способами, однако в учебниках чаще всего предлагают только один вариант решения. Настоящее умение заключается не в том, чтобы из раза в раз использовать стандартный метод, а в том, чтобы находить наиболее подходящий, пусть даже и необычный, способ решения.В этой книге рассказывается о десяти различных стратегиях решения задач. Каждая глава начинается с описания конкретной стратегии и того, как ее можно использовать в бытовых ситуациях, а затем приводятся примеры применения такой стратегии в математике.


Вначале была аксиома. Гильберт. Основания математики

Давид Гильберт намеревался привести математику из методологического хаоса, в который она погрузилась в конце XIX века, к порядку посредством аксиомы, обосновавшей ее непротиворечиво и полно. В итоге этот эпохальный проект провалился, но сама попытка навсегда изменила облик всей дисциплины. Чтобы избавить математику от противоречий, сделать ее «идеальной», Гильберт исследовал ее вдоль и поперек, даже углубился в физику, чтобы предоставить квантовой механике структуру, названную позже его именем, — гильбертово пространство.


Симпсоны и их математические секреты

Саймон Сингх рассказывает о самых интересных эпизодах мультсериала, в которых фигурируют важнейшие математические идеи – от числа π и бесконечности до происхождения чисел и самых сложных проблем, над которыми работают современные математики.Книга будет интересна поклонникам сериала «Симпсоны» и всем, кто увлекается математикой.На русском языке публикуется впервые.


Жар холодных числ и пафос бесстрастной логики

Цель книги доктора философских наук Б. В. Бирюкова и кандидата философских наук В. Н. Тростникова - создать общую картину подготовки и развития логико-математических аспектов кибернетики. Авторы рассказывают о длительном развитии науки логики, возникшей еще в Древней Греции, прослеживают непрерывающуюся нить преемственности, тянущуюся от Аристотеля к "чуду XX века" - быстродействующим кибернетическим устройствам.


Истина и красота: Всемирная история симметрии

На протяжении многих веков симметрия оставалась ключевым понятием для художников, архитекторов и музыкантов, однако в XX веке ее глубинный смысл оценили также физики и математики. Именно симметрия сегодня лежит в основе таких фундаментальных физических и космологических теорий, как теория относительности, квантовая механика и теория струн. Начиная с древнего Вавилона и заканчивая самыми передовыми рубежами современной науки Иэн Стюарт, британский математик с мировым именем, прослеживает пути изучения симметрии и открытия ее основополагающих законов.


Простая одержимость: Бернхард Риман и величайшая нерешенная проблема в математике

Сколько имеется простых чисел, не превышающих 20? Их восемь: 2, 3, 5, 7, 11, 13, 17 и 19. А сколько простых чисел, не превышающих миллиона? Миллиарда? Существует ли общая формула, которая могла бы избавить нас от прямого пересчета? Догадка, выдвинутая по этому поводу немецким математиком Бернхардом Риманом в 1859 году, для многих поколений ученых стала навязчивой идеей: изящная, интуитивно понятная и при этом совершенно недоказуемая, она остается одной из величайших нерешенных задач в современной математике.


Основы реальности. 10 фундаментальных принципов устройства Вселенной

Один из лучших популяризаторов науки Фрэнк Вильчек в доступной форме описывает основные составляющие физической реальности — пространство, время, материю, энергию и динамическую сложность. Вы узнаете о теории Большого взрыва и возникновении Вселенной, познакомитесь с одними из крупнейших проектов современности: охотой на частицу Хиггса и поиском гравитационных волн, положивших начало новому виду «многоканальной» астрономии. Книга лауреата Нобелевской премии по физике для всех, кто хочет приблизиться к пониманию устройства Вселенной.


Десять уравнений, которые правят миром. И как их можете использовать вы

Если вы сомневались, что вам может пригодиться математика, эта книга развеет ваши сомнения. Красота приведенных здесь 10 уравнений в том, что пронизывают все сферы жизни, будь то грамотные ставки, фильтрование значимой информации, точность прогнозов, степень влияния или эффективность рекламы. Если научиться вычленять из происходящего данные и математические модели, то вы начнете видеть взаимосвязи, словно на рентгене. Более того, вы сможете управлять процессами, которые другим кажутся хаотичными. В этом и есть смысл прикладной математики. На русском языке публикуется впервые.


Бесконечная сила

Популяризатор науки мирового уровня Стивен Строгац предлагает обзор основных понятий матанализа и подробно рассказывает о том, как они используются в современной жизни. Автор отказывается от формул, заменяя их простыми графиками и иллюстрациями. Эта книга – не сухое, скучное чтение, которое пугает сложными теоретическими рассуждениями и формулами. В ней много примеров из реальной жизни, которые показывают, почему нам всем нужна математика. Отличная альтернатива стандартным учебникам. Книга будет полезна всем, кто интересуется историей науки и математики, а также тем, кто хочет понять, для чего им нужна (и нужна ли) математика. На русском языке публикуется впервые.


Парадокс упражнений

Если упражнения полезны, почему большинство их избегает? Если мы рождены бегать и ходить, почему мы стараемся как можно меньше двигаться? Действительно ли сидячий образ жизни — это новое курение? Убивает ли бег колени и что полезнее — кардио- или силовые тренировки? Дэниел Либерман, профессор эволюционной биологии из Гарварда и один из самых известных исследователей эволюции физической активности человека, рассказывает, как мы эволюционировали, бегая, гуляя, копая и делая другие — нередко вынужденные — «упражнения», а не занимаясь настоящими тренировками ради здоровья. Это увлекательная книга, после прочтения которой вы не только по-другому посмотрите на упражнения (а также на сон, бег, силовые тренировки, игры, драки, прогулки и даже танцы), но и поймете, что для борьбы с ожирением и диабетом недостаточно просто заниматься спортом.