Математика с дурацкими рисунками. Идеи, которые формируют нашу реальность - [65]

Шрифт
Интервал

4. Дом, кирпичи и известь

«Записки федералиста», написанные в 1787 году, помогли задать американскую форму правления. Они полны политической мудрости, изощренной аргументации и неустаревающих афоризмов («зрелище смут и раздоров» — вы оценили?). Это могло бы стать убойной строчкой в резюме, но есть одна загвоздка.

Авторы не подписали свои имена.

Историки смогли установить, что 43 письма написаны Александром Гамильтоном, 14 — Джеймсом Мэдисоном, пять — Джоном Джеем и еще три письма написаны в соавторстве. Однако оставалось тайной, кто авторы еще 12 писем. Гамильтон или Мэдисон? Даже два века спустя головоломка не была разгадана.

Наступили 1960-е годы, и на сцене появились два специалиста по статистике: Фредерик Мостеллер и Дэвид Уоллес[213]. Фред и Дейв осознали всю тонкость проблемы. Предложения, написанные Гамильтоном, состояли в среднем из 34,55 слов; написанные Мэдисоном — в среднем из 34,59 слов. «По некоторым параметрам, — пишут исследователи, — авторы почти что близнецы». И дальше они сделали шаг, который совершают все специалисты по статистике, когда сталкиваются с изощренной проблемой.

Они порезали «Записки федералиста» на мелкие куски[214].

Контекст? Неважен. Смысл? Уничтожен. Пока «Записки» оставались набором текстов отцов-основателей, они были бесполезны. Они должны были стать клочками бумаги, совокупностью тенденций — иными словами, набором данных.

Даже после этого большинство слов оставались бесполезными. Их частотность зависела не от автора, а от темы. Например, «война». «Когда речь шла о вооруженных силах, частота предсказуемым образом была высокой, — пишут Фред и Дэйв. — Когда речь шла о выборах — низкой». Они присвоили таким словам статус «контекстуальные» и предприняли все усилия, чтобы избавиться от них. Они были слишком осмысленными.



Их поиски лишенных смысла слов увенчались успехом, когда они взялись за предлог upon («на основании»), который Мэдисон не употреблял почти никогда, а Гамильтон при каждом удобном случае:



Вооруженные этими данными, Фред и Дейв смогли свести каждого автора к чему-то вроде колоды карт, раздающей те или иные слова с предсказуемой вероятностью. Затем, отследив частотность определенных слов в письмах с неустановленным авторством, они смогли узнать, из какой «колоды» взят каждый текст.

Метод сработал. Их вывод: «Практически наверняка эти 12 писем написаны Мэдисоном».

Полвека спустя эта технология стала стандартной. Она помогла установить авторство древнегреческой прозы, сонетов елизаветинцев и речей Рональда Рейгана. Бен Блатт применил этот алгоритм около 30 000 раз, используя 250 общеупотребительных слов, чтобы определить, кто из двух авторов написал определенную книгу. Он получил 99,4 % верных ответов.

Мой разум знает, что здесь нет подвоха. Но мои чувства бунтуют. Как можно понять книгу, измельчив ее на биты?

В 2011 году команда авторов из Лаборатории литературоведения Стэнфорда совершила ловкий кульбит: они идентифицировали уже не авторов, а жанры[215]. Они использовали два метода: анализ частотности употребления слов и более изощренный анализ на уровне предложений (под названием «Докускоп»). К их удивлению, оба метода позволили точно определять жанры текстов.

Присмотримся к фрагменту абзаца со страницы, которую компьютер счел наиболее «готической» во всем корпусе, включающем 250 романов:

Он шел по шатким плитам через двор, пока не достиг арки; здесь он остановился, ибо ему снова стало страшно. Однако, набравшись храбрости, он пошел дальше, все еще пытаясь следовать за той фигурой, и внезапно оказался в разрушенном зале, вид которого был более диким и пустынным, чем все увиденное им до сих пор. Охваченный непреодолимым ужасом, он направился обратно, но услышал ослабший измученный голос. Сердце замерло при этом звуке, его бросило в дрожь, и он был совершенно не в силах сойти с места. Звук, похожий на предсмертный стон, повторился…

У меня ползут мурашки по спине, и на то есть две причины. Во-первых, вся эта жуткая готика: разрушенные арки и предсмертные стоны. Во-вторых, жутковато, что компьютер распознал готическую атмосферу, даже не обратив внимания на слова «арка», «разрушенный» или «предсмертный стон». Он выделил этот отрывок на основе употребления местоимений, вспомогательных слов и глагольных конструкций.

Я нервничаю. Что такого знает алгоритм, чего не знаю я?

К моему облегчению, авторы высказали предположительный ответ. Нет ни одного элемента, позволяющего определить автора или жанр, ни одной уникальной черты, из которой следуют все остальные. Скорее проза имеет много отличительных черт, от галактической структуры романа до молекулярной структуры слогов. Статистические тенденции и глубокий смысл могут сосуществовать, живя бок о бок в одной и той же последовательности слов.

Большую часть времени я читаю ради архитектуры текста. Сюжет, тема, персонаж. Это высокоуровневая структура: аспекты, которые видны любому прохожему, но непроницаемы для статистики.



Если я присмотрюсь, то увижу кирпичную кладку. Клаузулы, конструкции предложений, оформление абзаца. Это микроуровневая структура, тщательно исследовать которую меня учили школьные учителя английского. Компьютер может научиться делать то же самое.


Еще от автора Бен Орлин
Время переменных. Математический анализ в безумном мире

«Время переменных» – веселая книга о математике вокруг нас. Двадцать восемь увлекательных рассказов, посвященных разным аспектам математики, сопровождаются забавными авторскими рисунками. Математический анализ для Орлина – это универсальный язык, способный выразить все, с чем мы сталкиваемся каждый день, – любовь, риск, время и, самое главное, постоянные изменения. Тема движения времени находит отражение и в названиях частей книги – «Мгновения» и «Вечности», и в ее персонажах – от Шерлока Холмса до Марка Твена и Дэвида Фостера Уоллеса.


Рекомендуем почитать
Знание-сила, 2003 № 10 (916)

Ежемесячный научно-популярный и научно-художественный журнал.


Охотники за нейтрино. Захватывающая погоня за призрачной элементарной частицей

Эта книга – захватывающий триллер, где действующие лица – охотники-ученые и ускользающие нейтрино. Крошечные частички, которые мы называем нейтрино, дают ответ на глобальные вопросы: почему так сложно обнаружить антиматерию, как взрываются звезды, превращаясь в сверхновые, что происходило во Вселенной в первые секунды ее жизни и даже что происходит в недрах нашей планеты? Книга известного астрофизика Рэя Джаявардхана посвящена не только истории исследований нейтрино. Она увлекательно рассказывает о людях, которые раздвигают горизонты человеческих знаний.


Здоровая пища — поиски идеала. Есть ли золотая середина в запутанном мире диет?

Наше здоровье зависит от того, что мы едим. Но как не ошибиться в выборе питания, если число предлагаемых «правильных» диет, как утверждают знающие люди, приближается к 30 тысячам? Люди шарахаются от одной диеты к другой, от вегетарианства к мясоедению, от монодиет к раздельному питанию. Каждый диетолог уверяет, что именно его система питания самая действенная: одни исходят из собственного взгляда на потребности нашего организма, другие опираются на религиозные традиции, третьи обращаются к древним источникам, четвертые видят панацею в восточной медицине… Виктор Конышев пытается разобраться во всем этом разнообразии и — не принимая сторону какой-либо диеты — дает читателю множество полезных советов, а попутно рассказывает, какова судьба съеденных нами генов, какую роль сыграло в эволюции голодание, для чего необходимо ощущать вкус пищи, что и как ели наши далекие предки и еще о многом другом…Виктор Конышев — доктор медицинских наук, диетолог, автор ряда книг о питании.Книга изготовлена в соответствии с Федеральным законом от 29 декабря 2010 г.


Ньютон. Закон всемирного тяготения. Самая притягательная сила природы

Исаак Ньютон возглавил научную революцию, которая в XVII веке охватила западный мир. Ее высшей точкой стала публикация в 1687 году «Математических начал натуральной философии». В этом труде Ньютон показал нам мир, управляемый тремя законами, которые отвечают за движение, и повсеместно действующей силой притяжения. Чтобы составить полное представление об этом уникальном ученом, к перечисленным фундаментальным открытиям необходимо добавить изобретение дифференциального и интегрального исчислений, а также формулировку основных законов оптики.


Легенда о Вавилоне

Петр Ильинский, уроженец С.-Петербурга, выпускник МГУ, много лет работал в Гарвардском университете, в настоящее время живет в Бостоне. Автор многочисленных научных статей, патентов, трех книг и нескольких десятков эссе на культурные, политические и исторические темы в печатной и интернет-прессе США, Европы и России. «Легенда о Вавилоне» — книга не только о более чем двухтысячелетней истории Вавилона и породившей его месопотамской цивилизации, но главным образом об отражении этой истории в библейских текстах и культурных образах, присущих как прошлому, так и настоящему.


Открытия и гипотезы, 2005 №11

Научно-популярный журнал «Открытия и гипотезы» представляет свежий взгляд на самые главные загадки вселенной и человечества, его проблемы и открытия. Никогда еще наука не была такой интересной. Представлены теоретические и практические материалы.