Совместимость. Как контролировать искусственный интеллект - [21]

Шрифт

Интервал

Таким образом, вместо цели мы можем использовать функцию полезности для описания желательности разных исходов или последовательностей состояний. Часто полезность последовательности состояний выражается в сумме вознаграждений за каждое состояние в последовательности. Если цель определена через функцию полезности или вознаграждения, машина ориентируется на поведение, максимизирующее ожидаемую полезность или ожидаемую сумму вознаграждений, усредненных по возможным результатам с весами-вероятностями. Современный ИИ отчасти возрождает мечту Маккарти, только с полезностями и вероятностями вместо целей и логики.

Пьер-Симон Лаплас, великий французский математик, писал в 1814 г.: «Теория вероятности есть обычный здравый смысл, сведенный к расчетам»[67]. Однако только в 1980-х гг. были разработаны практический формальный язык и алгоритмы формирования рассуждений для вероятностного знания. Это был язык Байесовых сетей^>В, предложенный Джудой Перлом. Попросту говоря, Байесовы сети — вероятностные родственники пропозиционной логики. Они также являются вероятностным подобием логики первого порядка, в том числе Байесовой логики[68] и большого разнообразия языков вероятностного программирования.

Байесовы сети и Байесова логика названы в честь преподобного Томаса Байеса, британского священника, наследие которого для современной мысли, ныне известное как теорема Байеса, было опубликовано в 1763 г., вскоре после его смерти, его другом Ричардом Прайсом[69]. В своем современном виде, предложенном Лапласом, теорема очень простым способом описывает то, как априорная вероятность — первоначальная степень уверенности в системе возможных гипотез — становится апостериорной вероятностью в результате наблюдения некоторых подтверждающих свидетельств. По мере появления новых свидетельств апостериорность становится новой априорностью, и процесс Байесова обновления повторяется бесконечно. Это фундаментальный процесс, и современное понятие рациональности как максимизации ожидаемой полезности иногда называют Байесовой рациональностью. Предполагается, что рациональный агент имеет доступ к распределению апостериорной вероятности в возможных текущих состояниях мира, а также в гипотезах о будущем с опорой на весь свой прошлый опыт.

Специалисты в области исследования операций, теории управления и ИИ также разработали разнообразные алгоритмы принятия решений в условиях неопределенности, часть которых восходит к 1950-м гг. Эти так называемые алгоритмы «динамического программирования» являются вероятностными родственниками опережающего поиска и планирования и могут генерировать оптимальное или близкое к оптимальному поведение в отношении всевозможных практических задач в финансах, логистике, транспорте и т. д., в которых неопределенность играет существенную роль^>В. Задача состоит в том, чтобы ввести их в машины в форме функции вознаграждения, а на выходе получить политику, определяемую как действие в каждом возможном состоянии, в которое агент может себя ввести.

В случае таких сложных задач, как нарды и го, где число состояний колоссально, а вознаграждение появляется лишь в конце игры, опережающий поиск не работает. Вместо него исследователи ИИ разработали метод так называемого обучения с подкреплением. Алгоритмы обучения с подкреплением учатся на непосредственном опыте получения вознаграждающих сигналов из среды, во многом так же, как младенец учится стоять, получая позитивное вознаграждение за нахождение в вертикальном положении и негативное за падение. Как и в отношении алгоритмов динамического программирования, задачей, вводимой в алгоритм обучения с подкреплением, является функция вознаграждения, и алгоритм изучает оценочный модуль ценности состояний (иногда ценности действий). Оценочный модуль может сочетаться с относительно неточным предварительным поиском для генерирования высококомпетентного поведения.

Первой успешной системой обучения с подкреплением являлась шахматная программа Артура Самуэля, ставшая сенсацией после демонстрации по телевидению в 1956 г. Программа училась фактически с нуля, играя сама с собой и отмечая вознаграждения за победы, а также оценивая свои поражения[70]. В 1992 г. Джерри Тезауро применил ту же идею к нардам, достигнув игры уровня чемпиона мира после 1 500 000 матчей[71]. С 2016 г. AlphaGo команды DeepMind и ее наследницы применяли обучение с подкреплением и игру с собой, чтобы научиться побеждать лучших игроков в го, шахматы и сёги.

Алгоритмы обучения с подкреплением могут также научиться выбирать действия на основе восприятия первичных входных данных. Например, разработанная DeepMind система DQN научилась совершенно с нуля играть в 49 видеоигр Atari, в том числе Pong, Freeway и Space Invaders[72]. Она пользовалась только пикселями экрана в качестве входных данных и счетом в игре в качестве вознаграждения. В большинстве игр DQN научилась играть лучше профессиональных игроков, несмотря на то что не имела предшествующего понимания времени, пространства, объектов, движения, скорости или стрельбы. Довольно трудно выяснить, что же в действительности делает DQN, помимо того, что она выигрывает.

Продолжить чтение

Рекомендуем почитать

Герман Фёдоров-Давыдов

Монеты - свидетели прошлого

Новая книга профессора Московского университета Г. А. Федорова-Давыдова написана в научно-популярной форме, ярко и увлекательно. Она представляет собой очерки истории денежного дела в античных государствах Средиземноморья, средневековой Западной Европе, странах Востока, на Руси (от первых «златников» и «сребреников» князя Владимира до реформ Петра 1)„ рассказывается здесь также о монетах нового времени; специальный раздел посвящен началу советской монетной чеканки. Автор показывает, что монеты являются интересным и своеобразным историческим источником.

Федор Вейтков

Летопись электричества

Книга в легкой и доступной форме рассказывает об истории электротехники и немного касается самого начального этапа радиотехники. Автор дает общую картину развития знаний об электричестве, применения этих знаний в промышленности и технике. В книге содержится огромное количество материала, рисующего как древнейшие времена, так и современность с её проблемами науки и техники. В русской литературе — это первая попытка дать читателю систематическое изложение накопленных в течение веков фактов, которые представляют грандиозный путь развития учения об электричестве и его практического применения.

Фриц Пфейфер

Погода интересует всех

Когда у собеседников темы для разговора оказываются исчерпанными, как правило, они начинают говорить о погоде. Интерес к погоде был свойствен человеку всегда и надо думать, не оставит его и в будущем. Метеорология является одной из древнейших областей знания Книга Пфейфера представляет собой очерк по истории развития метеорологии с момента ее зарождения и до современных исследований земной атмосферы с помощью ракет и спутников. Но, в отличие от многих популярных книг, освещающих эти вопросы, книга Пфейфера обладает большим достоинством — она знакомит читателя с интереснейшими проблемами, которые до сих пор по тем или иным причинам незаслуженно мало затрагиваются в популярной литературе.

Иосиф Либерштейн

Зеленый пожар

Сорняки — самые древние и злостные враги хлебороба. Зеленым пожаром охвачены в настоящее время все земледельческие районы земного шара. В книге рассказывается об истории и удивительной жизненной силе сорных растений, об ожесточенной борьбе земледельца с сорняками и путях победы над грозным противником. - Книга в увлекательной и популярной форме рассказывает о борьбе с самым древним и злостным врагом хлеборобов — сорняками (первое издание — 1981 г). В ней даны сведения об истории и биологии сорняков, об их взаимоотношениях с культурными растениями.

Фридрих Хайнбух

Пчелы. Что человек и пчела значат друг для друга

Пчелы гораздо древнее, чем люди: когда 4–5 миллионов лет назад предшественники Homo sapiens встретились с медоносными пчелами, те жили на Земле уже около 5 миллионов лет. Пчелы фигурируют в мифах и легендах Древних Египта, Рима и Греции, Индии и Скандинавии, стран Центральной Америки и Европы. От повседневной работы этих трудолюбивых опылителей зависит жизнь животных и людей. Международная организация The Earthwatch Institute официально объявила пчел самыми важными существами на планете, их вымирание будет означать конец человечества.

Эрик Баркер

Лаять не на то дерево

Многие традиционные советы о том, как преуспеть в жизни, логичны, обоснованны… и откровенно ошибочны. В своей книге автор собрал невероятные научные факты, объясняющие, от чего на самом деле зависит успех и, что самое главное, как нам с вами его достичь. Для широкого круга читателей.

Анна Рослинг Рённлунд

Фактологичность

Специалист по проблемам мирового здравоохранения, основатель шведского отделения «Врачей без границ», создатель проекта Gapminder, Ханс Рослинг неоднократно входил в список 100 самых влиятельных людей мира. Его книга «Фактологичность» — это попытка дать читателям с самым разным уровнем подготовки эффективный инструмент мышления в борьбе с новостной паникой. С помощью проверенной статистики и наглядных визуализаций Рослинг описывает ловушки, в которые попадает наш разум, и рассказывает, как в действительности сегодня обстоят дела с бедностью и болезнями, рождаемостью и смертностью, сохранением редких видов животных и глобальными климатическими изменениями.

Дэвид Райх

Кто мы и как сюда попали

Американский генетик Дэвид Райх – один из главных революционеров в области изучения древней ДНК, которая для понимания истории человечества оказалась не менее важной, чем археология, лингвистика и письменные источники. В своей книге Райх наглядно показывает, сколько скрытой информации о нашем далеком прошлом содержит человеческий геном и как радикально геномная революция меняет наши устоявшиеся представления о современных людях. Миграции наших предков, их отношения с конкурирующими видами, распространение культур – все это предстает в совершенно ином свете с учетом данных по ДНК ископаемых останков.

Эрик Кандель

Расстроенная психика. Что рассказывает о нас необычный мозг

Все решения и поступки зарождаются в нашей психике благодаря работе нейронных сетей. Сбои в ней заставляют нас страдать, но порой дарят способность принимать нестандартные решения и создавать шедевры. В этой книге нобелевский лауреат Эрик Кандель рассматривает психические расстройства через призму “новой биологии психики”, плода слияния нейробиологии и когнитивной психологии. Достижения нейровизуализации, моделирования на животных и генетики помогают автору познавать тайны мозга и намечать подходы к лечению психических и даже социальных болезней.

Мичио Каку

Уравнение Бога. В поисках теории всего

«Уравнение Бога» – это увлекательный рассказ о поиске самой главной физической теории, способной объяснить рождение Вселенной, ее судьбу и наше место в ней. Знаменитый физик и популяризатор науки Митио Каку прослеживает весь путь удивительных открытий – от Ньютоновой революции и основ теории электромагнетизма, заложенных Фарадеем и Максвеллом, до теории относительности Эйнштейна, квантовой механики и современной теории струн, – ведущий к той великой теории, которая могла бы объединить все физические взаимодействия и дать полную картину мира.