Совместимость. Как контролировать искусственный интеллект - [21]

Шрифт
Интервал

Таким образом, вместо цели мы можем использовать функцию полезности для описания желательности разных исходов или последовательностей состояний. Часто полезность последовательности состояний выражается в сумме вознаграждений за каждое состояние в последовательности. Если цель определена через функцию полезности или вознаграждения, машина ориентируется на поведение, максимизирующее ожидаемую полезность или ожидаемую сумму вознаграждений, усредненных по возможным результатам с весами-вероятностями. Современный ИИ отчасти возрождает мечту Маккарти, только с полезностями и вероятностями вместо целей и логики.

Пьер-Симон Лаплас, великий французский математик, писал в 1814 г.: «Теория вероятности есть обычный здравый смысл, сведенный к расчетам»[67]. Однако только в 1980-х гг. были разработаны практический формальный язык и алгоритмы формирования рассуждений для вероятностного знания. Это был язык Байесовых сетей, предложенный Джудой Перлом. Попросту говоря, Байесовы сети — вероятностные родственники пропозиционной логики. Они также являются вероятностным подобием логики первого порядка, в том числе Байесовой логики[68] и большого разнообразия языков вероятностного программирования.

Байесовы сети и Байесова логика названы в честь преподобного Томаса Байеса, британского священника, наследие которого для современной мысли, ныне известное как теорема Байеса, было опубликовано в 1763 г., вскоре после его смерти, его другом Ричардом Прайсом[69]. В своем современном виде, предложенном Лапласом, теорема очень простым способом описывает то, как априорная вероятность — первоначальная степень уверенности в системе возможных гипотез — становится апостериорной вероятностью в результате наблюдения некоторых подтверждающих свидетельств. По мере появления новых свидетельств апостериорность становится новой априорностью, и процесс Байесова обновления повторяется бесконечно. Это фундаментальный процесс, и современное понятие рациональности как максимизации ожидаемой полезности иногда называют Байесовой рациональностью. Предполагается, что рациональный агент имеет доступ к распределению апостериорной вероятности в возможных текущих состояниях мира, а также в гипотезах о будущем с опорой на весь свой прошлый опыт.

Специалисты в области исследования операций, теории управления и ИИ также разработали разнообразные алгоритмы принятия решений в условиях неопределенности, часть которых восходит к 1950-м гг. Эти так называемые алгоритмы «динамического программирования» являются вероятностными родственниками опережающего поиска и планирования и могут генерировать оптимальное или близкое к оптимальному поведение в отношении всевозможных практических задач в финансах, логистике, транспорте и т. д., в которых неопределенность играет существенную роль. Задача состоит в том, чтобы ввести их в машины в форме функции вознаграждения, а на выходе получить политику, определяемую как действие в каждом возможном состоянии, в которое агент может себя ввести.

В случае таких сложных задач, как нарды и го, где число состояний колоссально, а вознаграждение появляется лишь в конце игры, опережающий поиск не работает. Вместо него исследователи ИИ разработали метод так называемого обучения с подкреплением. Алгоритмы обучения с подкреплением учатся на непосредственном опыте получения вознаграждающих сигналов из среды, во многом так же, как младенец учится стоять, получая позитивное вознаграждение за нахождение в вертикальном положении и негативное за падение. Как и в отношении алгоритмов динамического программирования, задачей, вводимой в алгоритм обучения с подкреплением, является функция вознаграждения, и алгоритм изучает оценочный модуль ценности состояний (иногда ценности действий). Оценочный модуль может сочетаться с относительно неточным предварительным поиском для генерирования высококомпетентного поведения.

Первой успешной системой обучения с подкреплением являлась шахматная программа Артура Самуэля, ставшая сенсацией после демонстрации по телевидению в 1956 г. Программа училась фактически с нуля, играя сама с собой и отмечая вознаграждения за победы, а также оценивая свои поражения[70]. В 1992 г. Джерри Тезауро применил ту же идею к нардам, достигнув игры уровня чемпиона мира после 1 500 000 матчей[71]. С 2016 г. AlphaGo команды DeepMind и ее наследницы применяли обучение с подкреплением и игру с собой, чтобы научиться побеждать лучших игроков в го, шахматы и сёги.

Алгоритмы обучения с подкреплением могут также научиться выбирать действия на основе восприятия первичных входных данных. Например, разработанная DeepMind система DQN научилась совершенно с нуля играть в 49 видеоигр Atari, в том числе Pong, Freeway и Space Invaders[72]. Она пользовалась только пикселями экрана в качестве входных данных и счетом в игре в качестве вознаграждения. В большинстве игр DQN научилась играть лучше профессиональных игроков, несмотря на то что не имела предшествующего понимания времени, пространства, объектов, движения, скорости или стрельбы. Довольно трудно выяснить, что же в действительности делает DQN, помимо того, что она выигрывает.


Рекомендуем почитать
Легенда о Вавилоне

Петр Ильинский, уроженец С.-Петербурга, выпускник МГУ, много лет работал в Гарвардском университете, в настоящее время живет в Бостоне. Автор многочисленных научных статей, патентов, трех книг и нескольких десятков эссе на культурные, политические и исторические темы в печатной и интернет-прессе США, Европы и России. «Легенда о Вавилоне» — книга не только о более чем двухтысячелетней истории Вавилона и породившей его месопотамской цивилизации, но главным образом об отражении этой истории в библейских текстах и культурных образах, присущих как прошлому, так и настоящему.


Открытия и гипотезы, 2005 №11

Научно-популярный журнал «Открытия и гипотезы» представляет свежий взгляд на самые главные загадки вселенной и человечества, его проблемы и открытия. Никогда еще наука не была такой интересной. Представлены теоретические и практические материалы.


Жители планет

«Что такое на тех отдаленных светилах? Имеются ли достаточные основания предполагать, что и другие миры населены подобно нашему, и если жизнь есть на тех небесных землях, как на нашей подлунной, то похожа ли она на нашу жизнь? Одним словом, обитаемы ли другие миры, и, если обитаемы, жители их похожи ли на нас?».


Знание-сила, 2000 № 07 (877)

Ежемесячный научно-популярный и научно-художественный журнал.


Меч и Грааль

Взыскание Святого Грааля, — именно так, красиво и архаично, называют неповторимое явление средневековой духовной культуры Европы, породившее шедевры рыцарских романов и поэм о многовековых поисках чудесной лучезарной чаши, в которую, по преданию, ангелы собрали кровь, истекшую из ран Христа во время крестных мук на Голгофе. В некоторых преданиях Грааль — это ниспавший с неба волшебный камень… Рыцари Грааля ещё в старых текстах именуются храмовниками, тамплиерами. История этого католического ордена, основанного во времена Крестовых походов и уничтоженного в начале XIV века, овеяна легендами.


Популярно о микробиологии

В занимательной и доступной форме автор вводит читателя в удивительный мир микробиологии. Вы узнаете об истории открытия микроорганизмов и их жизнедеятельности. О том, что известно современной науке о морфологии, методах обнаружения, культивирования и хранения микробов, об их роли в поддержании жизни на нашей планете. О перспективах разработок новых технологий, применение которых может сыграть важную роль в решении многих глобальных проблем, стоящих перед человечеством.Книга предназначена широкому кругу читателей, всем, кто интересуется вопросами современной микробиологии и биотехнологии.


Фактологичность

Специалист по проблемам мирового здравоохранения, основатель шведского отделения «Врачей без границ», создатель проекта Gapminder, Ханс Рослинг неоднократно входил в список 100 самых влиятельных людей мира. Его книга «Фактологичность» — это попытка дать читателям с самым разным уровнем подготовки эффективный инструмент мышления в борьбе с новостной паникой. С помощью проверенной статистики и наглядных визуализаций Рослинг описывает ловушки, в которые попадает наш разум, и рассказывает, как в действительности сегодня обстоят дела с бедностью и болезнями, рождаемостью и смертностью, сохранением редких видов животных и глобальными климатическими изменениями.


Кто мы и как сюда попали

Американский генетик Дэвид Райх – один из главных революционеров в области изучения древней ДНК, которая для понимания истории человечества оказалась не менее важной, чем археология, лингвистика и письменные источники. В своей книге Райх наглядно показывает, сколько скрытой информации о нашем далеком прошлом содержит человеческий геном и как радикально геномная революция меняет наши устоявшиеся представления о современных людях. Миграции наших предков, их отношения с конкурирующими видами, распространение культур – все это предстает в совершенно ином свете с учетом данных по ДНК ископаемых останков.


Расстроенная психика. Что рассказывает о нас необычный мозг

Все решения и поступки зарождаются в нашей психике благодаря работе нейронных сетей. Сбои в ней заставляют нас страдать, но порой дарят способность принимать нестандартные решения и создавать шедевры. В этой книге нобелевский лауреат Эрик Кандель рассматривает психические расстройства через призму “новой биологии психики”, плода слияния нейробиологии и когнитивной психологии. Достижения нейровизуализации, моделирования на животных и генетики помогают автору познавать тайны мозга и намечать подходы к лечению психических и даже социальных болезней.


Уравнение Бога. В поисках теории всего

«Уравнение Бога» – это увлекательный рассказ о поиске самой главной физической теории, способной объяснить рождение Вселенной, ее судьбу и наше место в ней. Знаменитый физик и популяризатор науки Митио Каку прослеживает весь путь удивительных открытий – от Ньютоновой революции и основ теории электромагнетизма, заложенных Фарадеем и Максвеллом, до теории относительности Эйнштейна, квантовой механики и современной теории струн, – ведущий к той великой теории, которая могла бы объединить все физические взаимодействия и дать полную картину мира.