Статистика — это наука, которая кажется знакомой. Мы привыкли слышать упоминания о статистике в средствах массовой информации: согласно исследованию (разумеется, статистическому), употребление алкоголя среди молодежи снизилось; результаты опроса показывают, что рейтинг доверия к одному политику выше, чем к другому; партия одержала победу на выборах с перевесом в столько-то пунктов. Даже футбольные комментаторы говорят, например, что, по статистике, одна из команд забивает больше голов во втором тайме. Ответы на вопросы вида «какую информацию можно извлечь из данных» и «какой будет степень достоверности этой информации» не всегда очевидны.
Статистику иногда считают несерьезной наукой. Статистические прогнозы не всегда сбываются, и команда, которая, по статистике, всегда забивает гол во втором тайме, в следующем матче может уйти с поля без забитого мяча. В этом заключается разница между статистикой и математикой, которая считается более серьезной наукой. Если футбольная команда «потеряла все математические шансы на победу в чемпионате», это означает, что ей ни при каких обстоятельствах уже не получится стать чемпионом. Статистические данные можно трактовать очень широко, чем активно пользуются политики. Это добавляет штрихи к довольно неприглядному образу статистики в глазах обывателей.
Однако статистика применяется намного шире. Она используется в медицинских исследованиях (действительно ли новое лекарство лучше старого), в биологии (сколько особей определенного вида обитает на определенной территории и грозит ли им вымирание), при прогнозировании (сколько электричества будет потрачено завтра), при анализе рынков (какая упаковка больше нравится клиентам), в социологии (что думает молодежь по конкретному вопросу), в экономике (на сколько выросли цены), при анализе технической надежности (с какой периодичностью нужно осматривать детали самолета) и при управлении качеством на предприятиях (на какой проблеме стоит сосредоточить усилия). Возможно, этот перечень слишком велик, но тем не менее он неполон: статистика используется и во многих других областях.
Статистика изучает сбор данных (каким должен быть объем данных и в какой форме следует их собирать) и способы их анализа, позволяющие получить ответы на интересующие нас вопросы. Цель статистики — получить знания объективным способом на основе наблюдений и анализа реальности. Именно в этом заключается суть научного метода.
В этой книге рассказывается о некоторых наиболее интересных аспектах статистики: как представить информацию с помощью графиков; как избежать пропущенных мячей (продолжим пример с футболом), располагая нужными статистическими данными; как провести сбор данных, чтобы ответить на поставленные вопросы. Мы расскажем о статистических исследованиях, предвыборных опросах и о том, какие рассуждения лежат в основе всех статистических тестов. Мы также совершим экскурс в теорию вероятностей — многим эта тема может показаться сложной и скучной, но в действительности она помогает достаточно просто получить ответы на множество занимательных вопросов.
Автор стремился сделать книгу интересной и познавательной. Если мне удалось хотя бы отчасти достигнуть этой цели, за это стоит благодарить моих сокурсников по Политехническому университету Каталонии и увлеченных преподавателей статистики Universidad del Valle в Кали (Колумбия), в частности Роберто Беара.
Наконец, я хотел бы выразить благодарность Педро Деликадо, Луису Марко, Лурдес Родеро и Хавьеру Торт-Марторелл за внимательное чтение первого издания этой книги и крайне уместные комментарии и предложения, которые позволили сделать ее намного лучше.
Глава 1
Описательная статистика: как извлечь важную информацию из множества данных
Что делать, если перед нами — множество данных, из которых нужно извлечь некую информацию? Вне всяких сомнений, сначала рекомендуется оценить их «на глаз», не просматривая числа одно за другим (наш мозг не способен качественно воспринимать информацию в таком виде), а представив их в виде графиков. Кроме того, можно вычислить некоторые показатели, которые могут быть проанализированы напрямую.
Экскурс в историю: эпидемия холеры 1854 года
Сохо — один из самых живописных районов британской столицы. Неотразимая смесь современного и традиционного делает его обязательным местом посещения многочисленных туристов, которые уже много лет гуляют мимо удивительно красивых домов, дают отдых усталым ногам в очаровательных парках, разбитых тут и там среди узких переулков. Учитывая великое множество достопримечательностей и суету, присущую центру любого большого города, вы вряд ли обратите внимание на тщательно воссозданную копию питьевой колонки XIX века, расположенную на углу улицы Бродвик. Однако этот скромный памятник установлен в память о столь важном событии, что он по праву мог бы возвышаться на сотню метров, ярко освещая ночное лондонское небо.
Колонка с питьевой водой на улице Бродвик, установленная в 1992 году в честь британского эпидемиолога Джона Сноу, расположена всего в нескольких метрах от другой точно такой же колонки, которая в 1854 году снабжала местных жителей водой из Темзы. В августе того зловещего года в районе Сохо разразилась ужасная эпидемия холеры, от которой всего за три дня умерло больше ста человек, а за две недели — свыше пятисот. Более трех четвертей населения Сохо оставило свои дома, сбегая от болезнетворных паров, которые, как считалось, и были источниками ужасной болезни.