Код бестселлера - [66]
[248], например, может быть существительным:
He held out hope that she would buy the book herself[249].
Оно может быть и глаголом:
She hoped he would buy her the book[250].
И даже именем собственным:
Hope told him to buy the book himself[251].
Современные алгоритмы разбора знают, где существительные, где глаголы и т. д., и умеют различать все соответствующие оттенки смысла. Алгоритмы смотрят на контекст всего предложения и делают выводы о том, к какой части речи принадлежит то или иное слово, на основе его места в предложении и контекста.
Введя эти предложения в программу разбора по частям речи, мы получаем на выходе примерно следующее:[252]
>He/PRP held/VBD out/RP hope/NN that/IN she/PRP would/MD buy/VB the/DT book/NN herself/PRP./.
>She/PRP hoped/VBD he/PRP would/MD buy/VB her/PRP the/DT book/NN./.
>Hope/NNP told/VBD him/PRP to/TO buy/VB the/DT book/NN himself/PRP./.
Заглавные буквы после косой черты – сокращенные обозначения частей речи. Слово hope было правильно опознано в первом предложении как существительное (NN), во втором – как глагол (VBD), а в третьем – как имя собственное (NNP). Для размеченного таким образом текста легко написать программу, которая извлечет только существительные, помеченные NN. Так мы получим существительные – кирпичики, из которых строится фундамент: опираясь на них, компьютер выделяет из текста темы.
Исследователи используют разные способы обучения компьютеров распознаванию частей речи. Но в большинстве этих способов задействован обширный корпус предложений, уже размеченных людьми. Специалисты по грамматике часами сидят над текстами, помечая части речи, а затем эти размеченные предложения загружают в программу в качестве обучающих данных. На основе этих данных машина строит статистическую модель, которая вычисляет вероятность появления той или иной комбинации слов. Например, компьютер может заметить, что после слова the в 55 % случаев стоит существительное, в 40 % – прилагательное и в 5 % – числительное. Конечно, такие программы разбора тоже иногда ошибаются, но очень редко – так редко, что, по мнению некоторых исследователей, задача компьютерного разбора по частям речи «уже решена». Другие исследователи возражают, но не слишком активно. Программа разбора по частям речи, разработанная в Стэнфордском университете, работает с точностью 97–100 %. Такая точность, безусловно, годится для большинства задач анализа текстов – в том числе тех, что мы решали при исследовании бестселлеров.
Распознавание именованных сущностей (NER) – другая область обработки естественного языка, тесно связанная с нашими исследованиями. Именованная сущность – это человек, географический объект или организация: Лисбет Саландер, Нью-Йорк, Microsoft. Распознавание подобных грамматических объектов позволяет находить ответы на разные вопросы – например, влияет ли место, где происходит действие романа, на факт его попадания в списки бестселлеров? Мы, разумеется, задались этим вопросом и обнаружили следующее: для того, станет ли роман бестселлером, важно, происходит ли действие в городе или где-нибудь в лесу. Конкретный город не важен. Роман, герои которого живут в Нью-Йорке, имеет столько же шансов, сколько и роман, герои которого живут в Стокгольме.
В 5-й главе мы использовали NER для лучшего понимания героев книг и исследования их агентивности. Но еще важнее для изучения персонажей оказался метод, называемый разбором зависимостей. Программы для разбора зависимостей анализируют предложение и размечают его синтаксическую структуру. Программа разбора понимает, какие слова связаны между собой и где в предложении подлежащее, сказуемое и дополнение. Как и описанный выше алгоритм разбора по частям речи, эта программа использует информацию из предложений, предварительно разобранных специалистами-людьми. Эта информация помогает определять наиболее вероятную структуру введенных в программу предложений. Для 5-й главы нам нужно было исследовать агентивность героев на основе глаголов, обычно связанных с мужскими и женскими персонажами[253]. Возьмем, например, это предложение из «Сферы»:
Mae knew Renata was watching her, and she knew her face was betraying something like horror[254]. Пропустив это предложение через программу разбора зависимостей, получаем на выходе следующее:[255]
>nsubj(knew-2, Mae-1)
>root(ROOT-0, knew-2)
>nsubj(watching-5, Renata-3)
>aux(watching-5, was-4)
>ccomp(knew-2, watching-5)
>dobj(watching-5, her-6)
>cc(knew-2, and-8)
>nsubj(knew-10, she-9)
>conj(knew-2, knew-10)
>nmod: poss(face-12, her-11)
>nsubj(betraying-14, face-12)
>aux(betraying-14, was-13)
>ccomp(knew-10, betraying-14)
>dobj(betraying-14, something-15)
>case(horror-17, like-16)
>nmod(betraying-14, horror-17)
Первая строка вывода показывает связь подлежащего (Mae)[256] с основным глаголом (knew)[257]. Кстати сказать, цифры рядом со словами показывают их порядок в предложении: Mae – первое слово, knew – второе, затем идет Renata и т. д. Обратите внимание: программа заметила связь между Ренатой, другим персонажем романа и глаголом watching[258], а также между местоимением she и вторым вхождением глагола
В справочнике описаны конструкции основных моделей отечественных велосипедов всех типов. Изложены правила эксплуатации их и даны рекомендации по ремонту, который может выполнить сам велосипедист. Книга предназначена для широкого круга велосипедистов, а также работников велосипедных мастерских и заводов.
Выбор и покупка подержанного автомобиля в России до недавнего времени были лотереей. Проигрыш в этой лотерее означал сотни тысяч рублей, выпущенных на ветер. Однако эта книга, представляющая собой краткое руководство по приобретению б/у машины, а также услуги нашего сервиса «АвтоКод» помогут свести риск нарваться на мошенников к нулю!
Я не раз удивлялся и открывал для себя новое: ну, откуда этот парень может знать это? А это? Сколько же ему понадобилось сменить подержанных автомобилей, чтобы узнать всё это? И прочитав всю эту книгу, я ни разу не испытал чувства протеста, несогласия с автором. Поэтому и рекомендую ее вам, дорогой читатель, – с чистой совестью. Юрий Гейко, журналист, автор и ведущий программы «Автоликбез» на «Авторадио».
«С Америкой на „ты“ — это второе издание справочника о современной Америке. Он адресован, в основном, тем, кто собирается или уже приехал в США. Автор книги Борис Талис, гражданин Америки, как и любой другой иммигрант, прошел нелегкий путь адаптации, не по наслышке знает о трудностях, с которыми сталкиваются те, кто волею судьбы оказываются в незнакомой стране, и искренне стремится им помочь.Из книги вы узнаете все самое важное о жизни в США! От государственного и политического устройства страны до житейских советов и пословиц.
В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.