Мозговой трест. 39 ведущих нейробиологов – о том, что мы знаем и чего не знаем о мозге - [83]

Шрифт
Интервал

Когда я вернулся в Ла-Хойю, сотрудник моей лаборатории Питер Дэйан, специалист по обучению с подкреплением, сразу же понял, что этот нейрон можно использовать для обучения методом временных разностей. Наша модель обучения пчелы позволяет объяснить некоторые особенности психики этих насекомых, такие как избегание риска. Когда пчеле предлагают выбор между гарантированным вознаграждением и удвоенным вознаграждением с 50-процентной вероятностью (в среднем получается тот же объем), она предпочитает гарантированное. Рид Монтегю, еще один сотрудник моей лаборатории, сделал следующий шаг, осознав, что дофаминовые нейроны в системе вознаграждения позвоночных могут выполнять аналогичную функцию[468]. Это был один из самых волнующих этапов моей научной жизни: наши модели и сделанные на их основе прогнозы были опубликованы, а впоследствии подтверждены на обезьянах (Вольфрамом Шульцем) и на людях. У обезьян для этого регистрировались сигналы отдельных нейронов, а в случае с людьми применялись методы визуализации мозга[469]. Кратковременные изменения в активности дофаминовых нейронов сигнализируют об ошибке в ожиданиях вознаграждения.

Обучение методом временных разностей может показаться не слишком эффективным, поскольку обратная связь состоит лишь в том, получаете вы вознаграждение или нет. Однако некоторые варианты применения такого обучения показали, что в сочетании с другими алгоритмами оно может быть весьма мощным инструментом. Джерри Тезауро работал со мной над обучением нейросети игре в нарды. Эта игра очень популярна на Ближнем Востоке, и некоторые даже зарабатывают на жизнь игрой с высокими ставками. Это соревнование между двумя игроками — кто раньше снимет с доски свои шашки. Скорость перемещения шашек определяется броском игральной кости, ходы делаются по очереди. В отличие от детерминированных игр вроде шахмат, в нардах неопределенность результата при броске игральной кости значительно затрудняет предсказание результата каждого хода. Стратегия игры в нарды в программе Джерри определялась на основе функции ценности, которая рассчитывала вероятность выиграть матч на основе всех возможных позиций на доске, каждой из которых группа мастеров этой игры присваивала оценку. Программа анализировала все возможные ходы в конкретной позиции и выбирала ход с наивысшей оценкой.

В нашем подходе для обучения нейросети оценке игровых позиций и выбору ходов использовалось экспертное знание. Недостаток этого подхода состоит в необходимости собрать и хранить множество экспертных оценок; кроме того, программа по определению не могла играть лучше экспертов. Когда Джерри перешел в исследовательский центр IBM имени Томаса Уотсона, он переключился с метода контролируемого обучения на метод временных разностей и заставил программу играть саму с собой. Проблема игры с собой заключается в том, что единственный обучающий сигнал — это выигрыш или проигрыш всей партии, а информация о влиянии на победу или поражение каждого из множества ходов отсутствует.

В начале обучения игре в нарды ходы вычислительной машины были случайными, но в итоге одна из сторон выигрывала. Сначала система вознаграждения обучала программу «выигрывать», то есть снимать все шашки с доски к концу игры. Когда программа освоила завершение игры, функция ценности для выигрыша начала обучать функцию ценности для середины игры, где приходилось принимать сложные решения о взаимодействии с шашками противника. Наконец, после ста тысяч партий, функция ценности научилась разыгрывать дебют, в котором шашки занимают оборону, чтобы помешать продвижению шашек противника. Процесс обучения шел с конца игры, где вознаграждение очевидно, к началу, с использованием неявного вознаграждения, рассчитанного функцией ценности. Таким образом, обратная последовательность функции ценности позволяет слабому обучающему сигналу (такому, как в дофаминовой системе вознаграждения) обучать машину последовательности решений, ведущих к достижению отдаленной цели.

Программа Тезауро, получившая название TD-Gammon, была представлена миру в 1992 году и удивила меня и многих других[470]. Функция ценности использовала несколько сотен смоделированных нейронов — по нынешним меркам это относительно небольшая нейросеть. После ста тысяч партий программа начала выигрывать у Джерри, и он позвонил Биллу Роберти, мастеру игры в нарды из Нью-Йорка, и тот приехал в исследовательский центр IBM, чтобы сыграть с компьютером. Роберти выиграл большинство партий, но был удивлен, проиграв несколько напряженных поединков. Он заявил, что это лучшая программа для игры в нарды из всех, с которыми он имел дело. Некоторые ходы компьютера были необычными, каких он не видел раньше; при тщательном анализе выяснилось, что эта стратегия лучше той, к которой обычно прибегают люди. Роберти вернулся, когда программа сыграла сама с собой миллион партий, и был поражен ничейным исходом серии поединков с TD-Gammon. Возможно, вам покажется, что миллион — это много, но программа ознакомилась лишь с ничтожно малой долей возможных позиций на доске. TD-Gammon


Еще от автора Дэвид Линден
Почему люди разные. Научный взгляд на человеческую индивидуальность

Все люди непохожи друг на друга. Этот факт кажется настолько очевидным, что мы редко задумываемся, почему это, собственно, так. Почему кто-то – сова, а кто-то жаворонок, кто-то любит сладкое, а кто-то горькое, одним нравятся мужчины, другим – женщины, а третьим тесно в привычных гендерных категориях. Нейробиолог Дэвид Линден оценил степень человеческого разнообразия, изучая анкеты на сайте знакомств. Там, как оказалось, люди особенно охотно описывают свои особенности – от цвета волос до пищевых и сексуальных предпочтений, от бытовых привычек до аллергии. «Почему люди разные» – это попытка описать в одной книге все грани нашей уникальности.


Осязание. Чувство, которое делает нас людьми

Мы привыкли верить своим глазам и ушам, но не всегда отдаем себе отчет в том, что огромный объем информации получаем не через них, а через кожу. Осязание – самое древнее из чувств. И зрение, и слух возникли в ходе эволюции гораздо позже. Установлено, что человеческий эмбрион уже в материнской утробе способен осязать окружающий мир. Профессор неврологии и известный популяризатор науки Дэвид Линден увлекательно и доступно – буквально «на пальцах»– объясняет, как работают сложные механизмы осязания, а заодно разбирает его многочисленные загадки.


Рекомендуем почитать
На траверзе — Дакар

Послевоенные годы знаменуются решительным наступлением нашего морского рыболовства на открытые, ранее не охваченные промыслом районы Мирового океана. Одним из таких районов стала тропическая Атлантика, прилегающая к берегам Северо-западной Африки, где советские рыбаки в 1958 году впервые подняли свои вымпелы и с успехом приступили к новому для них промыслу замечательной деликатесной рыбы сардины. Но это было не простым делом и потребовало не только напряженного труда рыбаков, но и больших исследований ученых-специалистов.


Историческое образование, наука и историки сибирской периферии в годы сталинизма

Настоящая монография посвящена изучению системы исторического образования и исторической науки в рамках сибирского научно-образовательного комплекса второй половины 1920-х – первой половины 1950-х гг. Период сталинизма в истории нашей страны характеризуется определенной дихотомией. С одной стороны, это время диктатуры коммунистической партии во всех сферах жизни советского общества, политических репрессий и идеологических кампаний. С другой стороны, именно в эти годы были заложены базовые институциональные основы развития исторического образования, исторической науки, принципов взаимоотношения исторического сообщества с государством, которые определили это развитие на десятилетия вперед, в том числе сохранившись во многих чертах и до сегодняшнего времени.


Интеллигенция в поисках идентичности. Достоевский – Толстой

Монография посвящена проблеме самоидентификации русской интеллигенции, рассмотренной в историко-философском и историко-культурном срезах. Логически текст состоит из двух частей. В первой рассмотрено становление интеллигенции, начиная с XVIII века и по сегодняшний день, дана проблематизация важнейших тем и идей; вторая раскрывает своеобразную интеллектуальную, духовную, жизненную оппозицию Ф. М. Достоевского и Л. Н. Толстого по отношению к истории, статусу и судьбе русской интеллигенции. Оба писателя, будучи людьми диаметрально противоположных мировоззренческих взглядов, оказались “versus” интеллигентских приемов мышления, идеологии, базовых ценностей и моделей поведения.


Князь Евгений Николаевич Трубецкой – философ, богослов, христианин

Монография протоиерея Георгия Митрофанова, известного историка, доктора богословия, кандидата философских наук, заведующего кафедрой церковной истории Санкт-Петербургской духовной академии, написана на основе кандидатской диссертации автора «Творчество Е. Н. Трубецкого как опыт философского обоснования религиозного мировоззрения» (2008) и посвящена творчеству в области религиозной философии выдающегося отечественного мыслителя князя Евгения Николаевича Трубецкого (1863-1920). В монографии показано, что Е.


Технологии против Человека. Как мы будем жить, любить и думать в следующие 50 лет?

Эксперты пророчат, что следующие 50 лет будут определяться взаимоотношениями людей и технологий. Грядущие изобретения, несомненно, изменят нашу жизнь, вопрос состоит в том, до какой степени? Чего мы ждем от новых технологий и что хотим получить с их помощью? Как они изменят сферу медиа, экономику, здравоохранение, образование и нашу повседневную жизнь в целом? Ричард Уотсон призывает задуматься о современном обществе и представить, какой мир мы хотим создать в будущем. Он доступно и интересно исследует возможное влияние технологий на все сферы нашей жизни.


Лес. Как устроена лесная экосистема

Что такое, в сущности, лес, откуда у людей с ним такая тесная связь? Для человека это не просто источник сырья или зеленый фитнес-центр – лес может стать местом духовных исканий, служить исцелению и просвещению. Биолог, эколог и журналист Адриане Лохнер рассматривает лес с культурно-исторической и с научной точек зрения. Вы узнаете, как устроена лесная экосистема, познакомитесь с различными типами леса, характеризующимися по составу видов деревьев и по условиям окружающей среды, а также с видами лесопользования и с некоторыми аспектами охраны лесов. «Когда видишь зеленые вершины холмов, которые волнами катятся до горизонта, вдруг охватывает оптимизм.