Код бестселлера - [66]

Шрифт
Интервал

[248], например, может быть существительным:

He held out hope that she would buy the book herself[249].

Оно может быть и глаголом:

She hoped he would buy her the book[250].

И даже именем собственным:

Hope told him to buy the book himself[251].

Современные алгоритмы разбора знают, где существительные, где глаголы и т. д., и умеют различать все соответствующие оттенки смысла. Алгоритмы смотрят на контекст всего предложения и делают выводы о том, к какой части речи принадлежит то или иное слово, на основе его места в предложении и контекста.

Введя эти предложения в программу разбора по частям речи, мы получаем на выходе примерно следующее:[252]

>He/PRP held/VBD out/RP hope/NN that/IN she/PRP would/MD buy/VB the/DT book/NN herself/PRP./.


>She/PRP hoped/VBD he/PRP would/MD buy/VB her/PRP the/DT book/NN./.


>Hope/NNP told/VBD him/PRP to/TO buy/VB the/DT book/NN himself/PRP./.

Заглавные буквы после косой черты – сокращенные обозначения частей речи. Слово hope было правильно опознано в первом предложении как существительное (NN), во втором – как глагол (VBD), а в третьем – как имя собственное (NNP). Для размеченного таким образом текста легко написать программу, которая извлечет только существительные, помеченные NN. Так мы получим существительные – кирпичики, из которых строится фундамент: опираясь на них, компьютер выделяет из текста темы.

Исследователи используют разные способы обучения компьютеров распознаванию частей речи. Но в большинстве этих способов задействован обширный корпус предложений, уже размеченных людьми. Специалисты по грамматике часами сидят над текстами, помечая части речи, а затем эти размеченные предложения загружают в программу в качестве обучающих данных. На основе этих данных машина строит статистическую модель, которая вычисляет вероятность появления той или иной комбинации слов. Например, компьютер может заметить, что после слова the в 55 % случаев стоит существительное, в 40 % – прилагательное и в 5 % – числительное. Конечно, такие программы разбора тоже иногда ошибаются, но очень редко – так редко, что, по мнению некоторых исследователей, задача компьютерного разбора по частям речи «уже решена». Другие исследователи возражают, но не слишком активно. Программа разбора по частям речи, разработанная в Стэнфордском университете, работает с точностью 97–100 %. Такая точность, безусловно, годится для большинства задач анализа текстов – в том числе тех, что мы решали при исследовании бестселлеров.

Распознавание именованных сущностей (NER) – другая область обработки естественного языка, тесно связанная с нашими исследованиями. Именованная сущность – это человек, географический объект или организация: Лисбет Саландер, Нью-Йорк, Microsoft. Распознавание подобных грамматических объектов позволяет находить ответы на разные вопросы – например, влияет ли место, где происходит действие романа, на факт его попадания в списки бестселлеров? Мы, разумеется, задались этим вопросом и обнаружили следующее: для того, станет ли роман бестселлером, важно, происходит ли действие в городе или где-нибудь в лесу. Конкретный город не важен. Роман, герои которого живут в Нью-Йорке, имеет столько же шансов, сколько и роман, герои которого живут в Стокгольме.

В 5-й главе мы использовали NER для лучшего понимания героев книг и исследования их агентивности. Но еще важнее для изучения персонажей оказался метод, называемый разбором зависимостей. Программы для разбора зависимостей анализируют предложение и размечают его синтаксическую структуру. Программа разбора понимает, какие слова связаны между собой и где в предложении подлежащее, сказуемое и дополнение. Как и описанный выше алгоритм разбора по частям речи, эта программа использует информацию из предложений, предварительно разобранных специалистами-людьми. Эта информация помогает определять наиболее вероятную структуру введенных в программу предложений. Для 5-й главы нам нужно было исследовать агентивность героев на основе глаголов, обычно связанных с мужскими и женскими персонажами[253]. Возьмем, например, это предложение из «Сферы»:

Mae knew Renata was watching her, and she knew her face was betraying something like horror[254]. Пропустив это предложение через программу разбора зависимостей, получаем на выходе следующее:[255]

>nsubj(knew-2, Mae-1)

>root(ROOT-0, knew-2)

>nsubj(watching-5, Renata-3)

>aux(watching-5, was-4)

>ccomp(knew-2, watching-5)

>dobj(watching-5, her-6)

>cc(knew-2, and-8)

>nsubj(knew-10, she-9)

>conj(knew-2, knew-10)

>nmod: poss(face-12, her-11)

>nsubj(betraying-14, face-12)

>aux(betraying-14, was-13)

>ccomp(knew-10, betraying-14)

>dobj(betraying-14, something-15)

>case(horror-17, like-16)

>nmod(betraying-14, horror-17)

Первая строка вывода показывает связь подлежащего (Mae)[256] с основным глаголом (knew)[257]. Кстати сказать, цифры рядом со словами показывают их порядок в предложении: Mae – первое слово, knew – второе, затем идет Renata и т. д. Обратите внимание: программа заметила связь между Ренатой, другим персонажем романа и глаголом watching[258], а также между местоимением she и вторым вхождением глагола


Рекомендуем почитать
Справочник велосипедиста

В справочнике описаны конструкции основных моделей отечественных велосипедов всех типов. Изложены правила эксплуатации их и даны рекомендации по ремонту, который может выполнить сам велосипедист. Книга предназначена для широкого круга велосипедистов, а также работников велосипедных мастерских и заводов.


Секреты безопасной покупки подержанного автомобиля

Выбор и покупка подержанного автомобиля в России до недавнего времени были лотереей. Проигрыш в этой лотерее означал сотни тысяч рублей, выпущенных на ветер. Однако эта книга, представляющая собой краткое руководство по приобретению б/у машины, а также услуги нашего сервиса «АвтоКод» помогут свести риск нарваться на мошенников к нулю!


Секреты автоподбора, или Как выбрать лучший на рынке подержанный автомобиль

Я не раз удивлялся и открывал для себя новое: ну, откуда этот парень может знать это? А это? Сколько же ему понадобилось сменить подержанных автомобилей, чтобы узнать всё это? И прочитав всю эту книгу, я ни разу не испытал чувства протеста, несогласия с автором. Поэтому и рекомендую ее вам, дорогой читатель, – с чистой совестью. Юрий Гейко, журналист, автор и ведущий программы «Автоликбез» на «Авторадио».


Краткий медицинский терминологический словарь

Вашему вниманию предлагается Краткий медицинский терминологический словарь.


С Америкой на «ты»

«С Америкой на „ты“ — это второе издание справочника о современной Америке. Он адресован, в основном, тем, кто собирается или уже приехал в США. Автор книги Борис Талис, гражданин Америки, как и любой другой иммигрант, прошел нелегкий путь адаптации, не по наслышке знает о трудностях, с которыми сталкиваются те, кто волею судьбы оказываются в незнакомой стране, и искренне стремится им помочь.Из книги вы узнаете все самое важное о жизни в США! От государственного и политического устройства страны до житейских советов и пословиц.


Телефонный компас

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.