Алгоритмы для жизни: Простые способы принимать верные решения - [71]

Шрифт
Интервал

. Знание о переобучении способно изменить то, как мы ходим на рынок, садимся за обеденный стол, идем в тренажерный зал… и к алтарю.


Аргумент против сложности

Что бы ты ни делала, я могу лучше; я что угодно могу сделать лучше, чем ты.

Фильм «Энни, возьми ружье»

Каждое решение – своего рода прогноз: понравится ли вам то, что вы раньше еще не пробовали; каково направление того или иного тренда; как наименее исхоженная (или наоборот) тропа может оказаться золотоносной. А любой прогноз, что особенно важно, подразумевает размышления о двух определенных моментах: что вы знаете и чего не знаете. То есть это попытка сформулировать теорию, которая сможет объяснить накопленный вами опыт и подскажет возможный исход той или иной ситуации. Хорошая теория, разумеется, справится с обеими задачами. Но тот факт, что любой прогноз, по сути, должен выполнять два предназначения, неизбежно создает определенное напряжение.



В качестве наглядной иллюстрации такого напряжения давайте рассмотрим информацию, которая могла бы быть полезной для Дарвина, – данные об уровне удовлетворенности людей браком в течение первых 10 лет из недавнего исследования, проведенного в Германии. Каждая точка в графике взята из самого исследования. Наша задача – вывести формулу для линии, которая соединит эти пункты между собой, и продлить ее в будущее, что позволит нам спрогнозировать события после десятилетней отметки.

Первая потенциальная формула для предсказания уровня удовлетворенности жизнью будет опираться на один фактор – время, прошедшее с момента свадьбы. Таким образом, мы получим прямолинейный график. В другом варианте можно использовать два фактора – время и квадратное время; в результате у нас будет парабола, которая отразит потенциально более сложные отношения между временем и счастьем. А если мы включим в формулу еще больше факторов (кубическое время и т. д.), появится еще больше точек перегиба кривой, линия станет еще более изгибистой. Имея формулу, учитывающую девять факторов, мы сможем отразить поистине сложные взаимоотношения.



Говоря языком математики, наша модель на основе двух факторов объединяет всю информацию, которая идет в однофакторную модель, имея при этом еще одно условие, которое она также может использовать. Аналогичным образом, модель на основе девяти факторов использует всю информацию двухфакторной модели, имея при этом возможность использовать множество дополнительных данных. По этой логике, кажется, что девятифакторная модель всегда должна помогать нам составить самый точный прогноз.

Но, оказывается, все не так просто.

Результаты применения этих моделей показаны выше. В однофакторной модели отсутствует множество точных точек данных, хотя основная тенденция отражена – постепенный спад после безмятежного медового месяца. Однако прямая линия зависимости предсказывает, что снижение уровня удовлетворенности жизнью будет продолжаться постоянно, приводя в итоге к бесконечному мучению. Что-то в этой траектории кажется не совсем верным. В противоположность этому выравнивание линии, предсказанное двухфакторной моделью, больше соответствует прогнозам психологов и экономистов о браке и счастье. (Кстати, они считают, что такое выравнивание означает лишь возврат к нормальному состоянию, то есть к базовому уровню удовлетворенности человека своей жизнью, а вовсе не неудовольствие от самого брака.)

Мораль такова: действительно, используя большее количество факторов в модели, мы по определению получим модель, наиболее соответствующую данным, которыми мы уже располагаем. Однако наиболее близкое соответствие необязательно означает, что мы получаем наиболее точный прогноз.

Допустим, что самая простейшая модель – например, прямая линия из нашей однофакторной формулы – не всегда может отразить реальную картину данных. Если настоящее положение дел похоже на кривую, то прямая линия никогда не сможет передать суть верно. С другой стороны, слишком сложная модель вроде нашей девятифакторной, как мы имели возможность наблюдать, становится чересчур чувствительной к каждому отдельному значению. В результате именно потому, что эта модель так четко настроена на определенный набор данных, ее решения крайне переменчивы. Если исследование повторить с разными людьми, одно– и двухфакторные модели останутся более-менее стабильными, внося незначительные изменения в общую картину, в то время как линия девятифакторной модели будет отчаянно кружить от одних результатов исследования к другим. Это явление эксперты в области статистики называют переподгонкой.



Поэтому одним из золотых правил машинного обучения, в сущности, является тот факт, что использовать более сложную модель, которая учитывает большое количество факторов, – не всегда лучшее решение. И дело не в том, что дополнительные факторы могут давать различные результаты: близость к статистическим данным не оправдывает дополнительной вычислительной сложности. С такими моделями наши прогнозы могут стать гораздо менее надежными.

Поклонение данным

Если бы мы имели огромный объем данных, полученных на основании одной идеально подготовленной репрезентативной выборки (безошибочно точной и отражающей конкретно то, что мы пытаемся оценить), лучшим подходом было бы использование наиболее сложной модели. Но если мы попытаемся максимально подстроить нашу модель под те данные при условии, что какой-либо один фактор будет варьироваться, то мы рискуем получить эффект переподгонки.


Рекомендуем почитать
Особенности личностного и семейного функционирования родственников наркозависимых

В монографии представлен аналитический обзор современной литературы, отражающий основные научные подходы к изучению родственников больных с аддиктивными расстройствами. В работе описываются особенности личностного и семейного функционирования различных категорий родственников больных, страдающих героиновой наркоманией, в сопоставлении с показателями их сверстников из нормативной выборки. Нормативная группа включала практически здоровых лиц, не имеющих выраженных нарушений социальной адаптации. Среди членов семьи нормативной группы отсутствовали лица, страдающие наркотической зависимостью, выраженными нервно-психическими или тяжелыми хроническими соматическими заболеваниями. Описан характер семейной и личностной дисфункциональности родственников наркозависимых, в частности, среди показателей семейного функционирования особое внимание уделено таким, как: нарушение семейного климата и уровня организации семьи, снижение показателей семейной социокультурной ориентации.


Психологика успешности от А до Я

Успешность – это реальность или призрак? Ради неё многие люди готовы на всё! Но как её достичь? Использовать логику или довериться случаю? Эта книга поможет достичь подлинной успешности и счастья в жизни! Почему бы не начать её читать? Несомненно вы найдёте много полезного для своей жизни!


Путь к сердцу мужчины и... обратно

Соционическое знание дает конкретные рекомендации, как произвести впечатление и строить отношения с каждым из 16 типов мужчин. Соционика избавит вас от необходимости прибегать к методу ненаучного тыка в надежде, что хоть какое-нибудь из ваших достоинств случайно впечатлит и не напугает при этом вашего партнера.


Анализ фобии пятилетнего мальчика

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Исправление школьного конвейера

«По моему мнению, Майкл Гриндер изложил нечто экстраординар­ное в этой книге. Он прекрасно представил некоторые репрезента­тивные паттерны, смоделированные в НЛП – технологии, и существен­но усовершенствовал их для конкретного контекста образования. Читателю представлены точные описания техник активного и пассив­ного наблюдений, классификация стилей научения учеников и техники адаптации учителя к ученику. Результат – не только улучшение успеваемости, но и улучшение взаимоотношений с учениками. Поэтому я с удовольствием рекомендую всем, кто хочет самосовершенствоваться, овладеть паттернами, представленными в этой книге.


Кокология 2

«Кокология» – модная японская игра, представляющая собой серию увлекательных психологических тестов, – входит сегодня в число популярнейших американских бестселлеров. «Кокология-2» предлагает читателям более 50 совершенно новых тестов, рассчитанных как на опытных кокологов, так и на новичков. Кокология – наука, занимающаяся изучением кокоро, что по-японски значит «ум» или «дух», – предлагает вам совершенно безобидные на первый взгляд вопросы вроде «Какая комната в вашем воображаемом доме самая чистая?», после чего выдает на основе полученных ответов описание вашего характера, ваших помыслов и предпочтений.