Код бестселлера - [14]
Вопреки видимости (учитывая навязчивое присутствие темы секса на ТВ, в кино и СМИ) читающая публика США в последние тридцать лет явно предпочитает другие темы. Сочетание тем, характерное для современного бестселлера, дает основания предположить, что современный читатель ждет от книги чего-то большего, нежели потакание самым низким инстинктам.
Но откуда мы это знаем?
В 1957 году лингвист Джон Руперт Фёрс сказал: лучший способ понять слово – это познакомиться с его соседями. Проще говоря, значение слова раскрывается через контекст, в котором оно употреблено. Слова «секс», «наркотики» и «рок-н-ролл», фигурирующие в названии этого раздела, можно было бы понять соответственно как сокращение слова «секстет», «обезболивающие средства» и «акробатические танцы» – но вы знаете, что в данном контексте имелось в виду не это, именно потому, что каждое из слов придает определенный оттенок смысла своим соседям. Возьмем другой пример – слово «три». Оно может означать числительное, а может – повелительное наклонение глагола[48]. Чтобы различать эти два случая, компьютер нуждается в специальном обучении – по принципу, сформулированному Фёрсом семьдесят лет назад. Компьютер должен рассматривать каждое слово в контексте окружающих его слов в ближайших предложениях. Алгоритмический метод для формализации такого рассмотрения слов в контексте в больших объемах называется моделированием тем[49].
Математический аппарат, задействованный в моделировании тем, весьма сложен, но его общие принципы достаточно просты. Каждый роман представляет собой комбинацию тем, а эти темы выражаются словами (в первую очередь – существительными). Например, в книге о финансах, скорее всего, встретятся слова «банки», «проценты», «деньги», «фидуциарный». В другой книге, посвященной домашнему консервированию, мы увидим слова «банки», «крышка», «огурцы» и «укроп». Слово «банки» попадается в обеих книгах, но, рассмотрев другие существительные, стоящие рядом с каждым вхождением этого слова, компьютерная модель регистрирует повторяющиеся закономерности и может понять – подобно читателю-человеку, – что в разных местах слово «банки» имеет разные значения[50]. Очевидно, что слово «банки» само по себе еще не тема, но, когда оно постоянно попадается рядом с другими словами, которые (как нам уже известно) связаны с финансами, мы понимаем, что компьютер обнаружил в книге тему денег. Аналогично, если «банки» окружены «огурцами» и «пряностями», мы знаем: компьютер обнаружил тему домашних заготовок. При написании этой книги мы проводили моделирование тем, и одна из тем, обнаруженных компьютером, выглядела так, как показано на рис. 1.
Рис. 1
Эта тема посвящена барам – не единицам измерения, а заведениям, куда заходят выпить рюмочку. Значение этого слова вполне прозрачно. На нашей визуализации в виде облака слова изображены шрифтом разного размера: чем крупнее шрифт, тем чаще это слово попадается рядом со словом «бар». Это очень логично. Слова, непосредственно окружающие центральное слово «бар», – «бармен», «выпить», «виски», «пиво» – дают нам уверенность в том, что если компьютер нашел все эти слова в пределах одной-двух страниц, то действие разворачивается в обычном местном баре.
Не все темы, обнаруженные компьютером, так легко интерпретировать. Иногда требуются познания в литературе и дар рассуждения. Время от времени приходится распознавать необычный язык, сконструированный автором фантастической саги, или малоизвестный диалект. Если тема составлена из таких слов, как аск, уолл на уолл, боллзы и амбрелла, вы будете долго напрягать брейнз[51], пока не догадаетесь, что все это – сленг из романа Энтони Берджесса «Заводной апельсин». Однако гораздо чаще тематическое облако выглядит примерно как на нашем рис. 2.
Рис. 2
Такие существительные, как глаза, рот, рука, голова, говорят о том, что тема имеет какое-то отношение к телу. Однако просто тело – недостаточно конкретное название. Тело может фигурировать, например, в описании сцены убийства, но это явно не наш случай. Образующие контекст слова на самом краю облака – поцелуи, наслаждение, улыбка, дыхание, постель, ритм, жар – указывают на то, что эта группа существительных описывает любовную сцену. Но это тоже слишком общее выражение. Любовные сцены бывают разные. Большинство писателей утверждает, что правильно описать секс – нелегкая задача, за которую они берутся безо всякого удовольствия. Каждый автор решает ее по-своему, с большим или меньшим успехом. В данном случае нужно заметить, что выбор слов указывает на довольно сдержанный стиль писателя – он явно не злоупотребляет грубостью или откровенностью. Словесные облака, созданные из описаний любовных сцен, показывают, что эти описания сильно различаются: от таких, которые можно не смущаясь читать вслух собственной бабушке, – до таких, какие выдержит лишь закаленный читатель.
Благодаря алгоритму моделирования тем мы получаем два важных результата. Во-первых, компьютер сообщает, какие темы есть в нашем корпусе текстов (в том числе – какие слова составляют каждую из них; примеры мы только что видели в словесных облаках слов «бар» и «тело»). Во-вторых, компьютер определяет долю содержания каждой темы в каждой книге. Мы задали список из пятисот возможных тем, так что вариации тематического состава могут быть огромны. Узнав эти пропорции, мы можем начать поиск закономерностей, типичных для бестселлеров. Это нечто вроде обратного конструирования. Возьмем в качестве метафоры тарелку супа. Компьютер сначала делит его на составляющие – мясо, бульон, капуста, лук, специи, – а затем тщательно измеряет количество каждого ингредиента.
В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.
Форматирование файла не завершено (Stribog).Эти не только древние, но и интересные рецепты не потеряли актуальности и в нынешнее время. Правда, хочу заметить, что не все из них безопасны. Особенно те, где используется ртуть и соли тяжелых металлов (в частности это касается раздела «Парфюмерия»). Так что думайте Сами.С уважением, Сергей Каштанов.
Руководство предназначается для изучения тактико-технических характеристик, устройства принципа действия, правил применения, хранения и транспортировки противотанковой мины ТМ-72 и минного взрывателя МВН-72.
Вниманию читателей предлагается первая научная публикация тематически разнородных анекдотов, имевших хождение в СССР с 1917 по 1991 год. Указатель представляет собой систематизированное собрание записей советских анекдотов. В издание вошли материалы из прессы, эмигрантских сборников, сводок о настроениях населения, доносов, судебных дел, записей фольклористов-любителей, дневников современников и прочих источников. Всего в Указателе 5852 статьи, каждая из которых посвящена одному анекдотическому сюжету.
rufb2edit 0.0.908 сен 2015http://lifehacker.ru/2015/01/22/chitat-v-3-raza-bystree/web2fb2_201509080815_87756238791.0Учимся читать в три раза быстрее за 20 минут - ЛайфхакерИя Зорина 22 января 2015Учимся читать в три раза быстрее за 20 минутУмение быстро читать освобождает кучу свободного времени. Только представьте, вы можете в три раза быстрее справляться со всей литературой — технической, профессиональной или художественной. А теперь приятная новость: в отличие от большинства навыков, которые нужно осваивать постепенно, скорочтение доступно вам уже через 20 минут тренировки.
В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.