Код бестселлера - [64]

Шрифт
Интервал

Поскольку мы занимаемся компьютерным анализом текстов, нас часто спрашивают, не хотим ли мы заняться и компьютерным литературным творчеством. Конечно, мы задумываемся, на что оказалась бы способна компьютерная программа, имей ее авторы доступ ко всем данным, накопленным нами при исследовании бестселлеров. Мы научили компьютер обнаруживать и измерять присутствие нескольких тысяч элементов, необходимых для того, чтобы книга стала бестселлером. Интересно было бы взять все эти данные и разработать новые скрипты, которые генерируют романы на основе наших наборов переменных.

У такого романа явно больше шансов понравиться читателям, чем у других творений машины. Однако нам это неинтересно. Ведь в любом случае новый текст будет создан на основе существующего – или работ живых писателей (как Настоящая любовь. wrt), или текстов, лежащих в свободном доступе в интернете (как книга Каземи), или же личного опыта самих программистов. В последнем случае они должны будут дать машине такие подробные инструкции, что, по совести, компьютер уже нельзя будет назвать автором получившегося текста. Мы предпочли бы просто сесть за стол вдвоем, вооружиться бумагой и ручкой и попробовать самим написать роман на базе своих изысканий.

Постскриптум, или Некоторые подробности о методе

Несколько предупреждений. Этот постскриптум задуман как простой мостик – не мост Риальто и не Понте-Веккьо, а простой мостик, вроде доски, перекинутой через овраг, – между миром художественной литературы и миром компьютерного анализа текстов. То, что вы прочитаете дальше, не предназначено для специалистов по компьютерным наукам, преподавателей или техников из издательства. Здесь не будет программного кода для анализа эмоций в романах. Вы также не найдете здесь пошагового руководства «Как построить собственный бестселлерометр в домашних условиях». Для тех, кто интересуется компьютерными науками, есть множество учебников и научных статей, из которых можно научиться как основам, так и более сложным методам анализа текстов. Аналогичным образом эти заключительные страницы не предназначены для страстных любителей чтения или будущих писателей. Вы увидите несколько примеров выданной компьютером информации и рассказ простыми словами о таких вещах, как синтаксический разбор, машинное обучение, распознавание именованных сущностей. Это – упрощенное введение в методы, использованные для получения результатов, которые легли в основу нашей книги.

В методе, который мы использовали для классификации книг, есть два основных понятия, соответствующие двум основным стадиям общего процесса анализа. Эти термины – «интеллектуальный анализ текста» и «машинное обучение» – часто используются как взаимозаменяемые, и во многих аспектах они взаимозависимы. Для осмысленного анализа текста часто требуется сначала обучить машину, а для обучения машины нужна некоторая информация из текста. Но в данном случае мы хотим разграничить эти два понятия. «Интеллектуальный анализ текста» мы будем понимать в узком смысле – как процесс поиска и извлечения определенных параметров из текста книги. Это будет наш первый шаг. «Машинное обучение» можно определить (также в узком смысле) как способ обработки полученных параметров, на основе которых будет сделан вывод о том, принадлежит ли книга к группе бестселлеров. Это второй шаг. Чтобы довести обе части процесса до удовлетворительного состояния (то есть до такого, который позволил нам с уверенностью представить «Сферу» как образцовый пример наиболее вероятного бестселлера), нам понадобилось около четырех лет и несколько тысяч компьютеров.

Интеллектуальный анализ текста

Компьютеры могут читать текст самыми разными способами – деталями этого процесса занимается отдельная дисциплина, обработка естественного языка. Существуют мощные программы для извлечения данных из текстов. Базовые задачи при анализе естественного языка – выделение слов, идентификация предложений, разбор по частям речи и разбор зависимостей. В каждой из этих задач есть свои сложности, так что «базовый» в данном случае не значит «простой». Решение этих задач лежит в самой основе нашей работы, описанной в этой книге.

Что такое разбиение на слова? Попросту говоря, компьютер учат находить начало и конец каждого слова. На первый взгляд может показаться, что это очень просто: где пробел – там заканчивается одно слово и начинается следующее. Часто так оно и есть. Но для интеллектуального анализа текста этого «часто» – недостаточно: всегда существуют граничные случаи, усложняющие жизнь. Посмотрите на предыдущее предложение. После слова «недостаточно» стоит двоеточие. Оно не является частью слова, поэтому нельзя приказать компьютеру разбивать слова только по пробелам. Компьютеры должны знать, что «хорошо» – это слово, а двоеточие – знак препинания. Посмотрим теперь на английское слово doesn’t. Это сокращение от does not[244]. Как вы думаете, doesn’t – это одно слово или два? Если одно, то придется объяснить компьютеру, что апостроф – не такой знак препинания, как двоеточие в предыдущем примере, и что его следует трактовать как заменитель буквы. А как насчет


Рекомендуем почитать
200 советов яхтенному капитану

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


713 секретов производственных технологий

Форматирование файла не завершено (Stribog).Эти не только древние, но и интересные рецепты не потеряли актуальности и в нынешнее время. Правда, хочу заметить, что не все из них безопасны. Особенно те, где используется ртуть и соли тяжелых металлов (в частности это касается раздела «Парфюмерия»). Так что думайте Сами.С уважением, Сергей Каштанов.


Противотанковая мина ТМ-72 и минный взрыватель МВН-72

Руководство предназначается для изучения тактико-технических характеристик, устройства принципа действия, правил применения, хранения и транспортировки противотанковой мины ТМ-72 и минного взрывателя МВН-72.


Советский анекдот

Вниманию читателей предлагается первая научная публикация тематически разнородных анекдотов, имевших хождение в СССР с 1917 по 1991 год. Указатель представляет собой систематизированное собрание записей советских анекдотов. В издание вошли материалы из прессы, эмигрантских сборников, сводок о настроениях населения, доносов, судебных дел, записей фольклористов-любителей, дневников современников и прочих источников. Всего в Указателе 5852 статьи, каждая из которых посвящена одному анекдотическому сюжету.


Учимся читать в три раза быстрее за 20 минут - Лайфхакер

rufb2edit 0.0.908 сен 2015http://lifehacker.ru/2015/01/22/chitat-v-3-raza-bystree/web2fb2_201509080815_87756238791.0Учимся читать в три раза быстрее за 20 минут - ЛайфхакерИя Зорина 22 января 2015Учимся читать в три раза быстрее за 20 минутУмение быстро читать освобождает кучу свободного времени. Только представьте, вы можете в три раза быстрее справляться со всей литературой — технической, профессиональной или художественной. А теперь приятная новость: в отличие от большинства навыков, которые нужно осваивать постепенно, скорочтение доступно вам уже через 20 минут тренировки.


Молодежный словарь

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.