Основы глубокого обучения - [6]

Шрифт

Интервал

Глава 2. Обучение нейросетей с прямым распространением сигнала

Проблема фастфуда

Мы начинаем понимать, как решать некоторые интересные задачи с помощью глубокого обучения, но остается важный вопрос: как определить, какими должны быть векторы параметров (веса всех соединений нейросети)? Ответ прост: в ходе процесса, часто именуемого обучением (рис. 2.1). Мы демонстрируем нейросети множество обучающих примеров и последовательно модифицируем веса, чтобы минимизировать ошибки, которые уже были совершены. Продемонстрировав достаточное число примеров, мы ожидаем, что нейросеть будет эффективно решать поставленную задачу.

Рис. 2.1.Нейрон, который мы хотим обучить решать проблему фастфуда

Вернемся к примеру, который упоминали в предыдущей главе при обсуждении линейного нейрона. Итак: каждый день мы покупаем в ресторане быстрого обслуживания обед — бургеры, картошку и газировку, причем по несколько порций каждого наименования. Мы хотим предсказывать, сколько будет стоить обед, но ценников нет. Кассир сообщает только общую цену.

Мы хотим обучить один линейный нейрон решать эту задачу. Как?

Один из вариантов — разумно подбирать примеры для обучения. Для одного обеда купим один бургер, для второго — одну порцию картошки, для третьего — один стакан газировки. В целом разумный подбор примеров — хорошая идея. Многие исследования показывают, что, создав хорошую подборку данных для обучения, вы сможете заметно повысить эффективность нейросети. Но проблема использования только этого подхода в том, что в реальных ситуациях он редко приближает нас к решению. Например, при распознавании изображений аналога ему нет и решения мы не найдем.

Нам нужно найти вариант, который поможет решать задачу в общем случае. Допустим, у нас очень большой набор обучающих примеров. Это позволит нам вычислить, какие выходные значения выдаст нейросеть на i-м примере, при помощи простой формулы. Мы хотим обучить нейрон и подбираем оптимальные веса, чтобы свести к минимуму ошибки при распознавании примеров. Можно сказать, мы хотим свести к минимуму квадратичную ошибку во всех примерах, которые встретим. Формально, если мы знаем, что t^>(i) — верный ответ на i-й пример, а y^>(i) — значение, вычисленное нейросетью, мы хотим свести к минимуму значение функции потерь E:

Квадратичная ошибка равна 0, когда модель дает корректные предсказания для каждого обучающего примера. Более того, чем ближе E к 0, тем лучше модель. Наша цель — выбрать такой вектор параметров θ (значения всех весов в этой модели), чтобы E было как можно ближе к 0.

Вы, возможно, недоумеваете: зачем утруждать себя функцией потерь, если проблему легко решить с помощью системы уравнений. В конце концов, у нас есть наборы неизвестных (весов) и уравнений (одно для каждого примера). Это автоматически даст нам ошибку, равную 0, если обучающие примеры подобраны удачно.

Хорошее замечание, но, к сожалению, актуальное не для всех случаев. Мы применяем здесь линейный нейрон, но на практике они используются редко, ведь их способности к обучению ограничены. А когда мы начинаем использовать нелинейные нейроны — сигмоиду, tanh или усеченный линейный, о которых мы говорили в конце предыдущей главы, — мы не можем задать систему уравнений! Так что для обучения явно нужна стратегия получше[9].

Градиентный спуск

Визуализируем для упрощенного случая то, как свести к минимуму квадратичную ошибку по всем обучающим примерам. Допустим, у линейного нейрона есть только два входа (и соответственно только два веса — w_>1 и w_>2). Мы можем представить себе трехмерное пространство, в котором горизонтальные измерения соответствуют w_>1 и w_>2, а вертикальное — значению функции потерь E. В нем точки на горизонтальной поверхности сопоставлены разным значениям весов, а высота в них — допущенной ошибке. Если рассмотреть все ошибки для всех возможных весов, мы получим в этом трехмерном пространстве фигуру, напоминающую миску (рис. 2.2).

Рис. 2.2.Квадратичная поверхность ошибки для линейного нейрона

Эту поверхность удобно визуализировать как набор эллиптических контуров, где минимальная ошибка расположена в центре эллипсов. Тогда мы будем работать с двумерным пространством, где измерения соответствуют весам. Контуры сопоставлены значениям w_>1 и w_>2, которые дают одно и то же E. Чем ближе они друг к другу, тем круче уклон. Направление самого крутого уклона всегда перпендикулярно контурам. Его можно выразить в виде вектора, называемого градиентом.

Пора разработать высокоуровневую стратегию нахождения значений весов, которые сведут к минимуму функцию потерь. Допустим, мы случайным образом инициализируем веса сети, оказавшись где-то на горизонтальной поверхности. Оценив градиент в текущей позиции, мы можем найти направление самого крутого спуска и сделать шаг в нем. Теперь мы на новой позиции, которая ближе к минимуму, чем предыдущая. Мы проводим переоценку направления самого крутого спуска, взяв градиент, и делаем шаг в новом направлении. Как показано на рис. 2.3, следование этой стратегии со временем приведет нас к точке минимальной ошибки. Этот алгоритм известен как градиентный спуск, и мы будем использовать его для решения проблемы обучения отдельных нейронов и целых сетей

Продолжить чтение

Рекомендуем почитать

Александр Носович

Задворки Европы. Почему умирает Прибалтика

“Была Прибалтика – стала Прое#алтика”, – такой крепкой поговоркой спустя четверть века после распада СССР описывают положение дел в своих странах жители независимых Литвы, Латвии и Эстонии. Регион, который считался самым продвинутым и успешным в Советском Союзе, теперь превратился в двойную периферию. России до Прибалтики больше нет дела – это не мост, который мог бы соединить пространство между Владивостоком и Лиссабоном, а геополитический буфер. В свою очередь и в «большой» Европе от «бедных родственников» не в восторге – к прибалтийским странам относятся как к глухой малонаселенной окраине на восточной границе Евросоюза с сильно запущенными внутренними проблемами и фобиями.

Д Соколов

Северный Кавказ. Модернизационный вызов

В книге дается представление авторов об экономике Северного Кавказа, существенно отличающееся от общепризнанного. Под вопрос ставятся многие сложившиеся мифы и стереотипы – тотальная депрессивность; масштабы безработицы и бедности; наличие барьеров, полностью исключающих модернизацию; дефицит финансовых средств как основная причина недостаточного экономического развития. Формулируются базовые принципы регионального развития, альтернативные традиционно принятым в северокавказской политике, предлагаются меры по их реализации.

Святослав Мартынов

Инновационная экономика. Дорожная карта – 2040

На день сегодняшний перед вами самая необычная и еретическая книга по экономике в России и в мире. Два дерзких профессора из Стокгольма создали в 1999 г. книгу-предтечу «Бизнес в стиле фанк», но не посмели выйти «за околицу», к океану новых знаний. А мы рискнули! Беремся это доказать, ибо предлагаем за 15–20 лет уйти от денежного обращения и золотого стандарта. В работе – варианты конкретных проектов и концепций. Дана корректная оценка земле Русской и «брошен якорь в будущее». Дана концепция матрицы нового социального уклада.

Анна Герт

Экономический кризис и перспективы развития капитализма

Вопреки дифирамбам французских энциклопедистов, а также мнению многих деятелей науки и культуры, живших в разные времена и считающих человека венцом творения, homo sapiens сам по себе не является идеальным и, к сожалению, все больше отдаляется от библейских стандартов. В наше время охваченные страстью потребительства люди далеко не всегда сознают, что творят. Ведь и современный кризис, как известно, стал следствием циничного прагматизма, а точнее, превысившей все пределы элементарной человеческой жадности руководителей банковских корпораций, которые в погоне за прибылью безответственно предоставили кредиты неспособным к их оплате потребителям.

Владимир Андрианов

Обеспечение информационной безопасности бизнеса

Данную книгу можно назвать практической энциклопедией. В ней дан максимальный охват проблематики обеспечения информационной безопасности, начиная с современных подходов, обзора нормативного обеспечения в мире и в России и заканчивая рассмотрением конкретных направлений обеспечения информационной безопасности (обеспечение ИБ периметра, противодействие атакам, мониторинг ИБ, виртуальные частные сети и многие другие), конкретных аппаратно-программных решений в данной области. Книга будет полезна бизнес-руководителям компаний и тем, в чью компетенцию входит решение технических вопросов обеспечения информационной безопасности.Все права защищены.

Валерия Башкирова

Антикризисная книга Коммерсантъ'a

В этой книге авторы пытаются показать, как возник и развивается кризис и как реагируют на него государство, предприниматели и простые люди. Кому-то это поможет разобраться в происходящем, кому-то – понять, почему привычный мир оказался таким неустойчивым.Ожидание ужаса сильнее самого ужаса. И есть основания полагать, что если нефтяные цены и уровень зарплаты к осени не восстановятся (похоже, что так), к сентябрю-октябрю 2009 года новые правила не только оформятся, но станут понятны всем. А это означает, что в нашей жизни вновь появится определенность и предсказуемость, и мы – в очередной раз – прорвемся.Эта книга – хроника развертывания кризиса в российской экономике с сентября по ноябрь 2008 года, написанная на основе публикаций в газете «Коммерсантъ» и журналах «Деньги», «Власть» и «Секрет фирмы».

Скотт Янг

Суперобучение

Скотт Янг, изучив результаты последних исследований и опыт выдающихся личностей, нашел те методы обучения, которые дают максимальный эффект: позволяют лучше понять и запомнить информацию, а также раскрыть новые таланты. Он сформулировал девять принципов быстрого самообразования, позволяющие осваивать сложные навыки, получать необходимые знания, максимизировать конкурентные преимущества и выстраивать карьеру. Эти принципы пригодятся всем, кто хочет научиться чему-либо самостоятельно: овладеть языком (или несколькими языками), получить новую профессию или освоить несколько инструментов для создания продукта или бизнеса с нуля. На русском языке публикуется впервые.

Иван Чаплыгин

Думай о смысле. Будни переводчика IT-текстов

Иван Чаплыгин рассказывает о сложных отношениях внутри пары автор – переводчик. Он позволит заглянуть на переводческую кухню и буквально на пальцах покажет, чем хороший перевод отличается от посредственного и откровенно плохого. Иван расскажет о чувстве слова, неоправданной русификации и переводческих головоломках. О заслуженной критике и необоснованных придирках. А еще о конкуренции среди переводчиков, о поиске заказчиков и об удовольствии от работы. Эта книга поможет вам понять, как находить суть в мутной воде авторского высказывания и как передавать смысл, не искажая оригинал и не привнося в него собственное звучание.

Эрин Мейер

Никаких правил. Уникальная культура Netflix

Книга о корпоративной культуре Netflix, которая построена вокруг свободы и ответственности. Именно культура позволила компании вырасти из небольшой фирмы по прокату DVD в гиганта развлекательной индустрии.

Рэй Далио

Принципы изменения мирового порядка

Рэй Далио, успешный инвестор и один из самых влиятельных людей планеты, основатель компании Bridgewater, исследует империи прошлого, выявляет закономерности взлетов и падений ведущих мировых экономик и делает выводы относительно настоящего и будущего в сфере макроэкономики и геополитики.