Основы глубокого обучения - [8]
Далее мы видим следующее:
Сведя эти факты воедино, мы можем выразить производные функций потерь слоя i через производные функций потерь слоя j:
Пройдя все стадии динамического программирования и заполнив таблицу всеми частными производными (функций потерь по выходным значениям скрытых нейронов), мы можем определить, как ошибка меняется по отношению к весам. Это даст нам представление о том, как корректировать веса после каждого обучающего примера:
Наконец, чтобы завершить алгоритм, как и раньше, мы суммируем частные производные по всем примерам в нашем наборе данных (dataset). Это дает нам следующую формулу изменения:
На этом описание алгоритма обратного распространения ошибок закончено!
Стохастический и мини-пакетный градиентный спуск
В алгоритмах, описанных в предыдущем разделе, мы использовали так называемый пакетный градиентный спуск. Идея в том, что мы при помощи всего набора данных вычисляем поверхность ошибки, а затем следуем градиенту, определяем самый крутой уклон и движемся в этом направлении. Для поверхности простой квадратичной ошибки это неплохой вариант. Но в большинстве случаев поверхность гораздо сложнее. Для примера рассмотрим рис. 2.6.
Рис. 2.6.Пакетный градиентный спуск чувствителен к седловым точкам, что может привести к преждевременному схождению
У нас только один вес, и мы используем случайную инициализацию и пакетный градиентный спуск для поиска его оптимального значения. Но поверхность ошибки имеет плоскую область (известную в пространствах с большим числом измерений как седловая точка). Если нам не повезет, то при пакетном градиентном спуске мы можем застрять в ней.
Другой возможный подход — стохастический градиентный спуск (СГС). При каждой итерации поверхность ошибки оценивается только для одного примера. Этот подход проиллюстрирован на рис. 2.7, где поверхность ошибки не единая статичная, а динамическая. Спуск по ней существенно улучшает нашу способность выходить из плоских областей.
Рис. 2.7.Стохастическая поверхность ошибки варьирует по отношению к пакетной, что позволяет решить проблему седловых точек
Основной недостаток стохастического градиентного спуска в том, что рассмотрение ошибки для одного примера может оказаться недостаточным приближением поверхности ошибки.
Это, в свою очередь, приводит к тому, что спуск займет слишком много времени. Один из способов решения проблемы — использование мини-пакетного градиентного спуска. При каждой итерации мы вычисляем поверхность ошибки по некой выборке из общего набора данных (а не одному примеру). Это и есть мини-пакет (minibatch), и его размер, как и темп обучения, — гиперпараметр. Мини-пакеты уравновешивают эффективность пакетного градиентного спуска и способность избегать локальных минимумов, которую предоставляет стохастический градиентный спуск. В контексте обратного распространения ошибок изменение весов выглядит так:
Это идентично тому, что мы вывели в предыдущем разделе. Но вместо того чтобы суммировать все примеры в наборе данных, мы обобщаем все примеры из текущего мини-пакета.
Переобучение и наборы данных для тестирования и проверки
Одна из главных проблем искусственных нейросетей — чрезвычайная сложность моделей. Рассмотрим сеть, которая получает данные от изображения из базы данных MNIST (28×28 пикселов), передает их в два скрытых слоя по 30 нейронов, а затем в слой с мягким максимумом из 10 нейронов. Общее число ее параметров составляет около 25 тысяч. Это может привести к серьезным проблемам. Чтобы понять почему, рассмотрим еще один упрощенный пример (рис. 2.8).
Рис. 2.8.Две модели, которыми может быть описан наш набор данных: линейная и многочлен 12-й степени
У нас есть ряд точек на плоской поверхности, задача — найти кривую, которая наилучшим образом опишет этот набор данных (то есть позволит предсказывать координату y новой точки, зная ее координату x). Используя эти данные, мы обучаем две модели: линейную и многочлен 12-й степени. Какой кривой стоит доверять? Той, которая не попадает почти ни в один обучающий пример? Или сложной, которая проходит через все точки из набора? Кажется, можно доверять линейному варианту, ведь он кажется более естественным. Но на всякий случай добавим данных в наш набор! Результат показан на рис. 2.9.
Рис. 2.9.Оценка модели на основе новых данных показывает, что линейная модель работает гораздо лучше, чем многочлен 12-й степени
Вывод очевиден: линейная модель не только субъективно, но и количественно лучше (по показателю квадратичной ошибки). Но это ведет к очень интересному выводу по поводу усвоения информации и оценки моделей машинного обучения. Строя очень сложную модель, легко полностью подогнать ее к обучающему набору данных. Ведь мы даем ей достаточно степеней свободы для искажения, чтобы вписаться в имеющиеся значения. Но когда мы оцениваем такую модель на новых данных, она работает очень плохо, то есть слабо
![Мировой капитализм и план Дауэса](/storage/book-covers/7e/7ea09ea86c99b6a6fc7142f3129918e02799dd85.jpg)
В книге подтверждаются основные выводы автора о весьма относительной устойчивости созданного «планом Дауэса» равновесия в Европе и о неминуемом обострении противоречий империализма на почве проведения этого плана.
![Теория воспроизводства и управление социалистической экономикой](/storage/book-covers/11/11737998de27c0aa54ace4cbff0cb5a9cb7fb21a.jpg)
Книга посвящена исследованию общественного воспроизводства и вопросам управления его процессами при социализме. В центре внимания авторов находятся: механизм управления микро– и макроэкономическими процессами, взаимосвязь между материальными и нематериальными сферами, социалистическое накопление и управление им. Важное место в книге занимают вопросы структуры, интенсификации производства и роста его эффективности, математического моделирования экономических процессов.
![Советское «Чудо». Великий миф о передовой советской промышленности](/storage/book-covers/f5/f5db0df9192a3ce905d95130d6c8821578514f3d.jpg)
Мы живем среди огромного количества мифов, созданных в разные времена различными группами людей. Один из таких мифов — экономическое и техническое могущество Советского Союза, наследницей которого сегодня является Россия. Мы постараемся, приводя факты, показать, кем и как создавалось советское чудо.
![Экономика добра и зла. В поисках смысла экономики от Гильгамеша до Уолл‑стрит](/storage/book-covers/4c/4c787df932a97e3a7acb401b99461d32af16c4ff.jpg)
«Экономика добра и зла» — результат размышлений Томаша Седлачека о том, как менялись представления человека о мире с экономической точки зрения. Автор предлагает взглянуть на экономику не как на строгую научную дисциплину, а как на культурное явление, продукт нашей цивилизации. Он обращается к важнейшим историческим источникам и трудам великих мыслителей: от шумерского эпоса и Ветхого Завета до древнегреческой и христианской литературы, от Рене Декарта и Адама Смита до современной эпохи постмодернизма, чтобы показать развитие экономического мировоззрения.
![Социально-трудовые отношения в аграрной сфере. Теория и практика](/storage/book-covers/58/5880c45022e671d6f6a3c60ad0d4ecadc9905228.jpg)
В монографии исследуются основные закономерности развития социально-трудовых отношений в аграрной сфере в современных условиях. В связи с этим работа включает изучение и анализ как исторически сложившихся, так и существующих социально-трудовых отношений в аграрной сфере, перспектив их развития.Представленный в монографии материал может быть полезен для ученых, работников сферы государственного управления и профсоюзов, студентов вузов, интересующихся вопросами труда и социальных отношений, складывающихся в процессе его реализации.
![Экономический кризис и перспективы развития капитализма](/build/oblozhka.dc6e36b8.jpg)
Вопреки дифирамбам французских энциклопедистов, а также мнению многих деятелей науки и культуры, живших в разные времена и считающих человека венцом творения, homo sapiens сам по себе не является идеальным и, к сожалению, все больше отдаляется от библейских стандартов. В наше время охваченные страстью потребительства люди далеко не всегда сознают, что творят. Ведь и современный кризис, как известно, стал следствием циничного прагматизма, а точнее, превысившей все пределы элементарной человеческой жадности руководителей банковских корпораций, которые в погоне за прибылью безответственно предоставили кредиты неспособным к их оплате потребителям.
![Думай о смысле. Будни переводчика IT-текстов](/storage/book-covers/09/09d3bb74e2494112553a30bde0b1d4fae8500e69.jpg)
Иван Чаплыгин рассказывает о сложных отношениях внутри пары автор – переводчик. Он позволит заглянуть на переводческую кухню и буквально на пальцах покажет, чем хороший перевод отличается от посредственного и откровенно плохого. Иван расскажет о чувстве слова, неоправданной русификации и переводческих головоломках. О заслуженной критике и необоснованных придирках. А еще о конкуренции среди переводчиков, о поиске заказчиков и об удовольствии от работы. Эта книга поможет вам понять, как находить суть в мутной воде авторского высказывания и как передавать смысл, не искажая оригинал и не привнося в него собственное звучание.
![Суперобучение](/storage/book-covers/f1/f1dd2c3711f6e4ae08ae12148b3b6f126a7b28fa.jpg)
Скотт Янг, изучив результаты последних исследований и опыт выдающихся личностей, нашел те методы обучения, которые дают максимальный эффект: позволяют лучше понять и запомнить информацию, а также раскрыть новые таланты. Он сформулировал девять принципов быстрого самообразования, позволяющие осваивать сложные навыки, получать необходимые знания, максимизировать конкурентные преимущества и выстраивать карьеру. Эти принципы пригодятся всем, кто хочет научиться чему-либо самостоятельно: овладеть языком (или несколькими языками), получить новую профессию или освоить несколько инструментов для создания продукта или бизнеса с нуля. На русском языке публикуется впервые.
![Никаких правил. Уникальная культура Netflix](/storage/book-covers/4c/4c8f384931d5343e45e96b62be2574bf1a05bb09.jpg)
Книга о корпоративной культуре Netflix, которая построена вокруг свободы и ответственности. Именно культура позволила компании вырасти из небольшой фирмы по прокату DVD в гиганта развлекательной индустрии.
![Принципы изменения мирового порядка](/storage/book-covers/57/574068e853e8c0093c4b7507e830827a4fcc1459.jpg)
Рэй Далио, успешный инвестор и один из самых влиятельных людей планеты, основатель компании Bridgewater, исследует империи прошлого, выявляет закономерности взлетов и падений ведущих мировых экономик и делает выводы относительно настоящего и будущего в сфере макроэкономики и геополитики.