Мозговой трест. 39 ведущих нейробиологов – о том, что мы знаем и чего не знаем о мозге - [83]

Шрифт
Интервал

Когда я вернулся в Ла-Хойю, сотрудник моей лаборатории Питер Дэйан, специалист по обучению с подкреплением, сразу же понял, что этот нейрон можно использовать для обучения методом временных разностей. Наша модель обучения пчелы позволяет объяснить некоторые особенности психики этих насекомых, такие как избегание риска. Когда пчеле предлагают выбор между гарантированным вознаграждением и удвоенным вознаграждением с 50-процентной вероятностью (в среднем получается тот же объем), она предпочитает гарантированное. Рид Монтегю, еще один сотрудник моей лаборатории, сделал следующий шаг, осознав, что дофаминовые нейроны в системе вознаграждения позвоночных могут выполнять аналогичную функцию[468]. Это был один из самых волнующих этапов моей научной жизни: наши модели и сделанные на их основе прогнозы были опубликованы, а впоследствии подтверждены на обезьянах (Вольфрамом Шульцем) и на людях. У обезьян для этого регистрировались сигналы отдельных нейронов, а в случае с людьми применялись методы визуализации мозга[469]. Кратковременные изменения в активности дофаминовых нейронов сигнализируют об ошибке в ожиданиях вознаграждения.

Обучение методом временных разностей может показаться не слишком эффективным, поскольку обратная связь состоит лишь в том, получаете вы вознаграждение или нет. Однако некоторые варианты применения такого обучения показали, что в сочетании с другими алгоритмами оно может быть весьма мощным инструментом. Джерри Тезауро работал со мной над обучением нейросети игре в нарды. Эта игра очень популярна на Ближнем Востоке, и некоторые даже зарабатывают на жизнь игрой с высокими ставками. Это соревнование между двумя игроками — кто раньше снимет с доски свои шашки. Скорость перемещения шашек определяется броском игральной кости, ходы делаются по очереди. В отличие от детерминированных игр вроде шахмат, в нардах неопределенность результата при броске игральной кости значительно затрудняет предсказание результата каждого хода. Стратегия игры в нарды в программе Джерри определялась на основе функции ценности, которая рассчитывала вероятность выиграть матч на основе всех возможных позиций на доске, каждой из которых группа мастеров этой игры присваивала оценку. Программа анализировала все возможные ходы в конкретной позиции и выбирала ход с наивысшей оценкой.

В нашем подходе для обучения нейросети оценке игровых позиций и выбору ходов использовалось экспертное знание. Недостаток этого подхода состоит в необходимости собрать и хранить множество экспертных оценок; кроме того, программа по определению не могла играть лучше экспертов. Когда Джерри перешел в исследовательский центр IBM имени Томаса Уотсона, он переключился с метода контролируемого обучения на метод временных разностей и заставил программу играть саму с собой. Проблема игры с собой заключается в том, что единственный обучающий сигнал — это выигрыш или проигрыш всей партии, а информация о влиянии на победу или поражение каждого из множества ходов отсутствует.

В начале обучения игре в нарды ходы вычислительной машины были случайными, но в итоге одна из сторон выигрывала. Сначала система вознаграждения обучала программу «выигрывать», то есть снимать все шашки с доски к концу игры. Когда программа освоила завершение игры, функция ценности для выигрыша начала обучать функцию ценности для середины игры, где приходилось принимать сложные решения о взаимодействии с шашками противника. Наконец, после ста тысяч партий, функция ценности научилась разыгрывать дебют, в котором шашки занимают оборону, чтобы помешать продвижению шашек противника. Процесс обучения шел с конца игры, где вознаграждение очевидно, к началу, с использованием неявного вознаграждения, рассчитанного функцией ценности. Таким образом, обратная последовательность функции ценности позволяет слабому обучающему сигналу (такому, как в дофаминовой системе вознаграждения) обучать машину последовательности решений, ведущих к достижению отдаленной цели.

Программа Тезауро, получившая название TD-Gammon, была представлена миру в 1992 году и удивила меня и многих других[470]. Функция ценности использовала несколько сотен смоделированных нейронов — по нынешним меркам это относительно небольшая нейросеть. После ста тысяч партий программа начала выигрывать у Джерри, и он позвонил Биллу Роберти, мастеру игры в нарды из Нью-Йорка, и тот приехал в исследовательский центр IBM, чтобы сыграть с компьютером. Роберти выиграл большинство партий, но был удивлен, проиграв несколько напряженных поединков. Он заявил, что это лучшая программа для игры в нарды из всех, с которыми он имел дело. Некоторые ходы компьютера были необычными, каких он не видел раньше; при тщательном анализе выяснилось, что эта стратегия лучше той, к которой обычно прибегают люди. Роберти вернулся, когда программа сыграла сама с собой миллион партий, и был поражен ничейным исходом серии поединков с TD-Gammon. Возможно, вам покажется, что миллион — это много, но программа ознакомилась лишь с ничтожно малой долей возможных позиций на доске. TD-Gammon


Еще от автора Дэвид Линден
Почему люди разные. Научный взгляд на человеческую индивидуальность

Все люди непохожи друг на друга. Этот факт кажется настолько очевидным, что мы редко задумываемся, почему это, собственно, так. Почему кто-то – сова, а кто-то жаворонок, кто-то любит сладкое, а кто-то горькое, одним нравятся мужчины, другим – женщины, а третьим тесно в привычных гендерных категориях. Нейробиолог Дэвид Линден оценил степень человеческого разнообразия, изучая анкеты на сайте знакомств. Там, как оказалось, люди особенно охотно описывают свои особенности – от цвета волос до пищевых и сексуальных предпочтений, от бытовых привычек до аллергии. «Почему люди разные» – это попытка описать в одной книге все грани нашей уникальности.


Осязание. Чувство, которое делает нас людьми

Мы привыкли верить своим глазам и ушам, но не всегда отдаем себе отчет в том, что огромный объем информации получаем не через них, а через кожу. Осязание – самое древнее из чувств. И зрение, и слух возникли в ходе эволюции гораздо позже. Установлено, что человеческий эмбрион уже в материнской утробе способен осязать окружающий мир. Профессор неврологии и известный популяризатор науки Дэвид Линден увлекательно и доступно – буквально «на пальцах»– объясняет, как работают сложные механизмы осязания, а заодно разбирает его многочисленные загадки.


Рекомендуем почитать
Новосибирск 1917-1975 (Справочный материал)

Информационные материалы, предназначенные для делегатов XXV городской партийной конференции г. Новосибирска, проходившей в декабре 1975 г. Содержат фотографии и статистические данные, показывающие результаты развития города с 1917 по 70-е гг. XX века.


Описание Московии

«Описание Московии» Александра Гваньини является законченным произведением, в котором удачно сочетаются географические и этнографические сведения, очерки военного дела, торговли и строительства, нравов и обычаев русских, их религии. Человек пера, автор, литературно одарённый, Гваньини создал впервые оригинальное произведение, в основу которого, как он сам написал в посвящении «благосклонному читателю», лежат «труды учёных мужей и космографов, а также различных путешественников»; многое же автор постиг «благодаря собственному опыту и присутствию»; его наблюдения достаточно верны и глубоки. В своей работе Гваньини исходил из двух основных источников: «Записок о Московитских делах» австрийского дипломата Сигизмунда Герберштейна (1486–1566 гг.), побывавшего в Москве в 1517 и 1526 гг., (первым изданием вышли в Вене в 1549 г.) и «Краткого сказания о нравах и жестоком правлении тирана Московии Васильевича» Альберта Шлихтинга, немецкого путешественника, дворянина из Померании, несколько лет проведшего в русском плену.


Печатные СМИ Германии в условиях социально расколотого общества

Монография историка-германиста О.Е. Ореховой предлагает читателю полный анализ рынка прессы ФРГ после объединения Германии, раскрывает динамику тиражных тенденций с 1990 по 2007 гг. и освещает специфику редакционных концепций ведущих органов печатных СМИ ФРГ в условиях рекламно-газетного кризиса начала XXI века. Книга рассчитана на студентов-международников, аспирантов, исследователей-германистов, всех интересующихся историей и современным состоянием печатных органов ФРГ.


Пишем курсовую работу

Книга для чтения содержит иллюстративные примеры к принципам подготовки курсовых работ, взятые из текстов курсовых работ по направлению «Международные отношения». Теоретическое объяснение сопровождается фрагментами, при анализе которых студенты учатся не только выявлять и употреблять клише научного стиля речи, но и продуцировать собственные тексты с опорой на имеющиеся образцы.


В долинах золотого песка

Эта книга рассказывает о золоте — древнем и современном, об отношении к нему людей различных формаций. Она знакомит с тем, как образовалось золото, каковы его свойства и где оно встречается в природе, какие машины на наших приисках пришли на смену бутаре и промывочному лотку. В заключение говорится об использовании золота в технике сегодняшнего и завтрашнего дня.


Лишение свободы как родовое понятие и виды уголовного наказания: опыт теоретико-правового конструирования. Монография

В монографии рассматривается институт лишения свободы как родовое понятие и виды наказания, связанные с изоляцией осужденного от общества.В настоящей работе предпринята попытка теоретико-правового конструирования видов лишения свободы: тюремного заключения на срок или бессрочно; содержание в исправительной колонии открытого типа для отбывания заключительного этапа тюремного заключения; содержания в воспитательном центре несовершеннолетних заключенных.Для студентов, аспирантов, профессорско-преподавательского состава юридических ВУЗов, научных сотрудников, исследующих современные проблемы уголовного наказания.