Голая статистика. Самая интересная книга о самой скучной науке - [90]

Шрифт
Интервал

Как действует данный механизм? Если нам известно, что мелкие государственные служащие Британии курят чаще, чем их начальники, то как нам определить, в какой мере плохое состояние их сердечно-сосудистой системы обусловлено спецификой работы, а в какой – этой пагубной привычкой? Оба фактора кажутся неразрывно связанными между собой.

Регрессионный анализ (выполненный надлежащим образом!) позволяет разделить эти факторы. Чтобы объяснить процесс на интуитивном уровне, мне придется начать с базовой идеи, лежащей в основе всех форм регрессионного анализа, от простейших статистических связей до сложных моделей, разработанных лауреатами Нобелевской премии. По своей сути регрессионный анализ стремится найти «наилучшее приближение» линейной зависимости между двумя переменными. Простой пример – зависимость между ростом и весом людей. Те, кто выше ростом, как правило, весят больше, хотя эта закономерность соблюдается не всегда. Если бы мы построили диаграмму разброса для роста и веса группы студентов-выпускников, то получили бы нечто наподобие того, что уже видели в главе 4.

Если бы вас попросили описать получившуюся картину, вы бы наверняка сказали что-то вроде: «Вес, по-видимому, увеличивается пропорционально росту». Такую догадку вряд ли можно назвать озарением. Регрессионный анализ позволяет нам пойти дальше и «провести линию», которая точнее всего отражает линейную зависимость между этими двумя переменными.



Можно провести множество линий, которые будут отражать соотношение между ростом и весом. Но как знать, какая из них это делает точнее всего? К тому же посредством какого критерия мы определяем эту линию? Регрессионный анализ обычно использует методологию под названием стандартный метод наименьших квадратов, МНК. Если читателя интересуют его технические подробности и он хочет узнать, почему МНК обеспечивает «наилучшее приближение», ему придется обратиться к более солидным учебникам по статистике. Ключевыми словами в названии МНК являются «наименьшие квадраты»: МНК определяет линию, минимизирующую сумму квадратов разностей. Это не настолько сложно, как может показаться на первый взгляд. Каждое наблюдение в нашей совокупности данных «рост/вес» характеризуется разностью, которая представляет собой его расстояние по вертикали от линии регрессии; это не относится к наблюдениям, расположенным непосредственно на линии: для них разность равняется нулю. (На представленной ниже диаграмме разброса разность отмечена для некоего гипотетического лица A.) На интуитивном уровне должно быть понятно, что чем больше сумма разностей в целом, тем худшее приближение обеспечивает данная линия. Единственное, что может быть непонятно в МНК на интуитивном уровне, это то, что в соответствующей формуле суммируются квадраты каждой разности (тем самым увеличивается весовой коэффициент, назначаемый наблюдениям, которые расположены особенно далеко от линии регрессии, то есть «отщепенцам»).

Обычный метод наименьших квадратов позволяет определить линию, которая минимизирует сумму квадратов разностей, как показано ниже.



Если технические подробности вызывают у вас головную боль, можете не обращать на них внимания. Важно запомнить главное: стандартный метод наименьших квадратов позволяет получить наилучшее описание линейной зависимости между двумя переменными. В результате мы получаем не только линию как таковую, но и – как вы, наверное, помните из курса геометрии в средней школе – уравнение, описывающее ее. Оно известно как уравнение регрессии и имеет следующий вид: y = a + bx, где y – вес в фунтах, a – отрезок, отсекаемый этой линией на оси Y (то есть значение y, когда x = 0), b – коэффициент наклона линии, а x – рост в дюймах. Коэффициент наклона b найденной нами линии описывает «наилучшую» линейную зависимость между ростом и весом для соответствующей выборки, как определяется стандартным методом наименьших квадратов.

Линия регрессии, конечно, не описывает идеальным образом каждое наблюдение в соответствующей совокупности данных. Но как бы то ни было, это лучшее из возможных описаний зависимости между весом и ростом человека. Это также означает, что каждое наблюдение можно объяснить как Вес = a + b(Рост) + e, где e – «разность», представляющая собой отклонение веса для каждого человека, которое не объясняется его ростом. Наконец, это означает, что наше оптимальное предположение относительно веса какого-либо человека в рассматриваемой совокупности даных будет иметь такой вид: a + b(Рост). Несмотря на то что большинство наблюдений не лежат непосредственно на линии регрессии, ожидаемая величина разности все же равняется нулю, поскольку вероятность того, что вес любого человека в выборке окажется больше, чем прогнозирует уравнение регрессии, равна вероятности того, что его вес окажется меньше, чем прогнозирует уравнение регрессии.

Впрочем, довольно теоретического жаргона! Давайте посмотрим на реальные данные роста и веса из исследования Americans’ Changing Lives. Правда, вначале мне придется прояснить кое-какую базовую терминологию. Переменная, которая подлежит объяснению, – в нашем случае это вес – называется зависимой переменной, так как она зависит от других факторов. Переменные, используемые для объяснения зависимой переменной, называются объясняющими переменными, поскольку они объясняют интересующий нас результат. (Чтобы еще больше запутать мозги, объясняющие переменные иногда называют независимыми или управляющими переменными.) Начнем с использования роста, чтобы объяснить вес участников исследования Americans’ Changing Lives, а впоследствии добавим другие потенциальные объясняющие факторы


Еще от автора Чарльз Уилан
Голые деньги

Это книга о деньгах — о том, как бумажки, лежащие в вашем кошельке, приобрели большую ценность, и как соглашение, обусловившее обмен этих, казалось бы, бесполезных бумажек на реальные товары, стало фундаментальной концепцией современной экономики.


Голая экономика. Разоблачение унылой науки

Книга ученого, преподавателя и журналиста Чарлза Уилэна посвящена тому, что окружает нас всегда и повсюду, — экономике. Но Уилэн старается говорить с читателем об этом трудном и «унылом» предмете на понятном языке — без туманных определений, сложных графиков и запутанных уравнений, «разоблачая» таким образом экономику, используя многочисленные примеры из нашей повседневной жизни, автор лишает основные экономические понятия их таинственности и дает ответы на многие вопросы.Книга будет полезна руководителям предприятий, менеджерам, преподавателям, студентам высших учебных заведений и всем интересующимся экономическими проблемами.


Рекомендуем почитать
Убедили! Как заявить о своей компетентности и расположить к себе окружающих

Блестящий придворный и знаток людей Ларошфуко говорил в свое время: «Свет чаще награждает видимость достоинств, нежели сами достоинства». Но как же действовать подлинно талантливому человеку, которого не замечают на фоне более уверенных соперников? Джек Нэшер, профессор менеджмента и всемирно известный эксперт в области деловых коммуникаций, призывает освоить стратегии общения, свойственные профессионалу, который впечатляет своей компетентностью и привык греться в лучах славы. Читателю предлагается «пересоздать» себя: усовершенствовать внешний облик, подобрать уместный гардероб, грамотно организовать рабочее пространство, заучить поведение, характерное для лидеров, и бесстрашно выступать с самопрезентацией перед коллегами и партнерами.


От батутов до попкорна – 2. 100 дел ФАС России против малого и среднего бизнеса

Эта книга – продолжение первой части, вышедшей в 2015 г. Во второй части анализируются 100 дел ФАС России против малого и среднего бизнеса за 2016—2018 гг. Несмотря на принятие 3.07.2016 закона об «иммунитетах» для малого бизнеса от антимонопольного контроля, подходы ФАС изменились незначительно. По основным объектом преследования остаются н самые крупные игроки на рынке. В книге предлагается реформа антимонопольного регулирования, предусматривающая полное прекращение преследования МСП.


Варгань, кропай, марай и пробуй

Нейробиолог Шрини Пиллэй, опираясь на последние исследования мозга, примеры из спорта и бизнеса и истории из своей психологической практики, бросает вызов традиционному подходу к продуктивности. Вместо внимания и сосредоточенности он предлагает специально «расфокусироваться», чтобы стимулировать креативность, развить память, увеличить продуктивность и двигаться к целям. На русском языке публикуется впервые.


Автоматический покупатель

Сразу после выхода в свет эта книга заняла первые места на Amazon среди книг по маркетингу и клиентскому сервису. Формирование источника регулярной выручки для компании – важная задача каждого предпринимателя. Благодаря разнообразию разновидностей бизнес-моделей на основе подписки для каждой отрасли можно найти подходящий вариант. Подписчики в любом случае намного ценнее для компании, чем обычные покупатели. Эта книга для всех, кто хочет построить бизнес-модель, приносящую регулярную прибыль. На русском языке публикуется впервые.


Отношение определяет результат

В бизнесе да и в жизни уже не так важно, что именно вы делаете. Гораздо важнее то, как вы это делаете. Дов Сайдман, основатель и CEO компании LRN, на страницах своей книги убедительно доказывает: моральные «факторы», прежде считавшиеся «факультативными», определяют сегодня ваш успех. Только ориентируясь на нравственные ценности, выстраивая отношения на основании доверия и заботясь о собственной репутации, вы сможете обойти конкурентов и преуспеть в бизнесе и в жизни. Эта книга будет полезна владельцам компаний, руководителям и менеджерам, которые заботятся не только о прибыли, но и о том, какое наследство они оставят своим детям.


Монетизация инноваций. Как успешные компании создают продукт вокруг цены

Инновации являются важнейшим фактором роста. Сегодня, более чем когда-либо, компании должны внедрять инновации, чтобы выжить. Но успешные инновации – это очень непростая задача. Авторы – партнеры всемирно известной консалтинговой компании Simon-Kucher & Partners Strategy & Marketing Consultants знают о чем говорят. Георг Таке – ее генеральный директор, а Мадхаван Рамануджам – партнер в Сан-Франциско. Simon-Kucher & Partners – глобальная консалтинговая компания, насчитывающая 900 профессионалов в 33 офисах по всему миру.