Основы глубокого обучения - [8]

Шрифт

Интервал

. Для этого необходима информация о том, как выходные данные нейрона в слое i воздействуют на логиты всех нейронов в слое j. Вот как это сделать, используя то, что частная производная логита по входящим значениям более низкого слоя — это вес соединения w_>ij:

Далее мы видим следующее:

Сведя эти факты воедино, мы можем выразить производные функций потерь слоя i через производные функций потерь слоя j:

Пройдя все стадии динамического программирования и заполнив таблицу всеми частными производными (функций потерь по выходным значениям скрытых нейронов), мы можем определить, как ошибка меняется по отношению к весам. Это даст нам представление о том, как корректировать веса после каждого обучающего примера:

Наконец, чтобы завершить алгоритм, как и раньше, мы суммируем частные производные по всем примерам в нашем наборе данных (dataset). Это дает нам следующую формулу изменения:

На этом описание алгоритма обратного распространения ошибок закончено!

Стохастический и мини-пакетный градиентный спуск

В алгоритмах, описанных в предыдущем разделе, мы использовали так называемый пакетный градиентный спуск. Идея в том, что мы при помощи всего набора данных вычисляем поверхность ошибки, а затем следуем градиенту, определяем самый крутой уклон и движемся в этом направлении. Для поверхности простой квадратичной ошибки это неплохой вариант. Но в большинстве случаев поверхность гораздо сложнее. Для примера рассмотрим рис. 2.6.

Рис. 2.6.Пакетный градиентный спуск чувствителен к седловым точкам, что может привести к преждевременному схождению

У нас только один вес, и мы используем случайную инициализацию и пакетный градиентный спуск для поиска его оптимального значения. Но поверхность ошибки имеет плоскую область (известную в пространствах с большим числом измерений как седловая точка). Если нам не повезет, то при пакетном градиентном спуске мы можем застрять в ней.

Другой возможный подход — стохастический градиентный спуск (СГС). При каждой итерации поверхность ошибки оценивается только для одного примера. Этот подход проиллюстрирован на рис. 2.7, где поверхность ошибки не единая статичная, а динамическая. Спуск по ней существенно улучшает нашу способность выходить из плоских областей.

Рис. 2.7.Стохастическая поверхность ошибки варьирует по отношению к пакетной, что позволяет решить проблему седловых точек

Основной недостаток стохастического градиентного спуска в том, что рассмотрение ошибки для одного примера может оказаться недостаточным приближением поверхности ошибки.

Это, в свою очередь, приводит к тому, что спуск займет слишком много времени. Один из способов решения проблемы — использование мини-пакетного градиентного спуска. При каждой итерации мы вычисляем поверхность ошибки по некой выборке из общего набора данных (а не одному примеру). Это и есть мини-пакет (minibatch), и его размер, как и темп обучения, — гиперпараметр. Мини-пакеты уравновешивают эффективность пакетного градиентного спуска и способность избегать локальных минимумов, которую предоставляет стохастический градиентный спуск. В контексте обратного распространения ошибок изменение весов выглядит так:

Это идентично тому, что мы вывели в предыдущем разделе. Но вместо того чтобы суммировать все примеры в наборе данных, мы обобщаем все примеры из текущего мини-пакета.

Переобучение и наборы данных для тестирования и проверки

Одна из главных проблем искусственных нейросетей — чрезвычайная сложность моделей. Рассмотрим сеть, которая получает данные от изображения из базы данных MNIST (28×28 пикселов), передает их в два скрытых слоя по 30 нейронов, а затем в слой с мягким максимумом из 10 нейронов. Общее число ее параметров составляет около 25 тысяч. Это может привести к серьезным проблемам. Чтобы понять почему, рассмотрим еще один упрощенный пример (рис. 2.8).

Рис. 2.8.Две модели, которыми может быть описан наш набор данных: линейная и многочлен 12-й степени

У нас есть ряд точек на плоской поверхности, задача — найти кривую, которая наилучшим образом опишет этот набор данных (то есть позволит предсказывать координату y новой точки, зная ее координату x). Используя эти данные, мы обучаем две модели: линейную и многочлен 12-й степени. Какой кривой стоит доверять? Той, которая не попадает почти ни в один обучающий пример? Или сложной, которая проходит через все точки из набора? Кажется, можно доверять линейному варианту, ведь он кажется более естественным. Но на всякий случай добавим данных в наш набор! Результат показан на рис. 2.9.

Рис. 2.9.Оценка модели на основе новых данных показывает, что линейная модель работает гораздо лучше, чем многочлен 12-й степени

Вывод очевиден: линейная модель не только субъективно, но и количественно лучше (по показателю квадратичной ошибки). Но это ведет к очень интересному выводу по поводу усвоения информации и оценки моделей машинного обучения. Строя очень сложную модель, легко полностью подогнать ее к обучающему набору данных. Ведь мы даем ей достаточно степеней свободы для искажения, чтобы вписаться в имеющиеся значения. Но когда мы оцениваем такую модель на новых данных, она работает очень плохо, то есть слабо

Продолжить чтение

Рекомендуем почитать

Исаак Дашковский

Мировой капитализм и план Дауэса

В книге подтверждаются основные выводы автора о весьма относительной устойчивости созданного «планом Дауэса» равновесия в Европе и о неминуемом обострении противоречий империализма на почве проведения этого плана.

Михаил Попов

Теория воспроизводства и управление социалистической экономикой

Книга посвящена исследованию общественного воспроизводства и вопросам управления его процессами при социализме. В центре внимания авторов находятся: механизм управления микро– и макроэкономическими процессами, взаимосвязь между материальными и нематериальными сферами, социалистическое накопление и управление им. Важное место в книге занимают вопросы структуры, интенсификации производства и роста его эффективности, математического моделирования экономических процессов.

Денис Ободовский

Советское «Чудо». Великий миф о передовой советской промышленности

Мы живем среди огромного количества мифов, созданных в разные времена различными группами людей. Один из таких мифов — экономическое и техническое могущество Советского Союза, наследницей которого сегодня является Россия. Мы постараемся, приводя факты, показать, кем и как создавалось советское чудо.

Томаш Седлачек

Экономика добра и зла. В поисках смысла экономики от Гильгамеша до Уолл‑стрит

«Экономика добра и зла» — результат размышлений Томаша Седлачека о том, как менялись представления человека о мире с экономической точки зрения. Автор предлагает взглянуть на экономику не как на строгую научную дисциплину, а как на культурное явление, продукт нашей цивилизации. Он обращается к важнейшим историческим источникам и трудам великих мыслителей: от шумерского эпоса и Ветхого Завета до древнегреческой и христианской литературы, от Рене Декарта и Адама Смита до современной эпохи постмодернизма, чтобы показать развитие экономического мировоззрения.

Риля Салахутдинова

Социально-трудовые отношения в аграрной сфере. Теория и практика

В монографии исследуются основные закономерности развития социально-трудовых отношений в аграрной сфере в современных условиях. В связи с этим работа включает изучение и анализ как исторически сложившихся, так и существующих социально-трудовых отношений в аграрной сфере, перспектив их развития.Представленный в монографии материал может быть полезен для ученых, работников сферы государственного управления и профсоюзов, студентов вузов, интересующихся вопросами труда и социальных отношений, складывающихся в процессе его реализации.

Анна Герт

Экономический кризис и перспективы развития капитализма

Вопреки дифирамбам французских энциклопедистов, а также мнению многих деятелей науки и культуры, живших в разные времена и считающих человека венцом творения, homo sapiens сам по себе не является идеальным и, к сожалению, все больше отдаляется от библейских стандартов. В наше время охваченные страстью потребительства люди далеко не всегда сознают, что творят. Ведь и современный кризис, как известно, стал следствием циничного прагматизма, а точнее, превысившей все пределы элементарной человеческой жадности руководителей банковских корпораций, которые в погоне за прибылью безответственно предоставили кредиты неспособным к их оплате потребителям.

Иван Чаплыгин

Думай о смысле. Будни переводчика IT-текстов

Иван Чаплыгин рассказывает о сложных отношениях внутри пары автор – переводчик. Он позволит заглянуть на переводческую кухню и буквально на пальцах покажет, чем хороший перевод отличается от посредственного и откровенно плохого. Иван расскажет о чувстве слова, неоправданной русификации и переводческих головоломках. О заслуженной критике и необоснованных придирках. А еще о конкуренции среди переводчиков, о поиске заказчиков и об удовольствии от работы. Эта книга поможет вам понять, как находить суть в мутной воде авторского высказывания и как передавать смысл, не искажая оригинал и не привнося в него собственное звучание.

Скотт Янг

Суперобучение

Скотт Янг, изучив результаты последних исследований и опыт выдающихся личностей, нашел те методы обучения, которые дают максимальный эффект: позволяют лучше понять и запомнить информацию, а также раскрыть новые таланты. Он сформулировал девять принципов быстрого самообразования, позволяющие осваивать сложные навыки, получать необходимые знания, максимизировать конкурентные преимущества и выстраивать карьеру. Эти принципы пригодятся всем, кто хочет научиться чему-либо самостоятельно: овладеть языком (или несколькими языками), получить новую профессию или освоить несколько инструментов для создания продукта или бизнеса с нуля. На русском языке публикуется впервые.

Эрин Мейер

Никаких правил. Уникальная культура Netflix

Книга о корпоративной культуре Netflix, которая построена вокруг свободы и ответственности. Именно культура позволила компании вырасти из небольшой фирмы по прокату DVD в гиганта развлекательной индустрии.

Рэй Далио

Принципы изменения мирового порядка

Рэй Далио, успешный инвестор и один из самых влиятельных людей планеты, основатель компании Bridgewater, исследует империи прошлого, выявляет закономерности взлетов и падений ведущих мировых экономик и делает выводы относительно настоящего и будущего в сфере макроэкономики и геополитики.