Код бестселлера - [65]
Значит, даже такая вроде бы простая задача, как разбиение на слова, оказывается весьма нетривиальной, если углубиться в детали языка и грамматики. Специалисты по обработке естественного языка подходят к этому вопросу так: они пишут программы, которые сначала вычленяют слова в тексте, а затем предлагают несколько вариантов обработки сокращений, слов с заглавной буквы и т. п. При исследовании современных бестселлеров нам все время приходилось принимать решения именно по таким вопросам. В конце концов оказалось, что на них можно отвечать по-разному для разных задач. Например, при анализе стиля, о котором мы говорили в 4-й главе, мы решили игнорировать заглавные буквы – таким образом, с точки зрения компьютера The и the было одним и тем же словом. Мы пренебрегли возможной разницей между ними. Но мы могли бы пойти и другим путем, попросив компьютер трактовать их как два разных слова, и тогда, возможно, узнали бы что-нибудь очень полезное. The с заглавной буквы будет, скорее всего, стоять в начале предложения. В 5-й главе мы показали, какую важную роль играет The в заглавиях романов. А что, если авторы бестселлеров начинают большее количество предложений со слова The? Мы решили анализировать это слово так, как если бы оно всегда было написано с маленькой буквы. Возможно, в результате мы пропустили какую-то важную стилевую особенность бестселлеров.
Определять, где начинаются и кончаются предложения, – еще одна непростая задача для компьютера. В конце предложения обычно стоит точка, вопросительный или восклицательный знак. Начало предложения обычно отмечено заглавной буквой. Руководствуясь этими принципами, наши компьютеры, как правило, верно распознают границы предложений. Можно написать компьютерную программу, которая использует простой алгоритм, например:
Начать с первого слова и идти по тексту, пока не попадется точка, вопросительный или восклицательный знак. Если следующее слово после точки, вопросительного знака или восклицательного знака начинается с большой буквы, значит, здесь конец предложения и начало следующего.
Но что будет, если ваша программа наткнется на предложение вроде такого: I was surprised to hear that Dr. Archer was writing a novel[246]. В этом предложении есть точка (после слова Dr.), а следующее за ней слово начинается с большой буквы (Archer). Руководствуясь только что сформулированным правилом, компьютер решит, что здесь конец предложения, и ошибется. Из-за этой и других проблем, связанных с сокращениями, при распознавании предложений нельзя ограничиться правилом о знаках препинания и заглавных буквах. Есть и другие сложности. Возьмем абзац текста с прямой речью:
After a long day spent training the machine to read bestsellers, Matt called Jodie and said, “Dialog will be the death of me.” Jodie offered solace in the form of Scotch whisky[247].
В этом случае точка, отмечающая конец предложения, попала внутрь кавычек. Чтобы разобраться в подобной ситуации, нашему компьютеру понадобится еще одно правило, специально для работы с кавычками. К тому же, оказывается, это правило нужно только для прозы, написанной американскими и канадскими авторами. В британском и австралийском английском кавычки принято помещать перед знаками препинания. Учитывая природную гибкость языка, легко вообразить себе множество исключений из этих общих правил. В общем, вы уже поняли: даже самые простые действия по извлечению параметров из текста очень сложны.
По этой причине многие специалисты по обработке естественного языка в частности и интеллектуальному анализу текстов вообще переходят от разбора на основе правил к методам, основанным на статических выводах. Вместо того чтобы перебирать все возможные способы создания предложений и пытаться сформулировать огромный набор правил с массой исключений для различных случаев, статистический подход изучает скрытые законы, управляющие языком, – их извлекают компьютеры, рассчитывая вероятности появления различных конструкций и комбинаций в реальных текстах.
Хороший пример этого процесса – автоматизированный разбор по частям речи. Во 2-й главе мы писали о том, как изучение существительных помогает выявить темы книги. Но прежде чем применить алгоритм моделирования тем, нам пришлось научить компьютер распознавать существительные. Слово hope[248]

Пособие, адресованное широким кругам молодежи, является своеобразным путеводителем по научно-фантастической литературе. Оно знакомит с наиболее значительными в проблемно-тематическом и идейно-художественном отношении произведениями отечественной и зарубежной научной фантастики, помогает ориентироваться в ее разнообразии, правильно выбирать и оценивать конкретные произведения. Имеется указатель заглавий художественных произведений и сборников.

Перед Вами статья из особого сборника, в котором есть сведения не только о самых богатых людях современности, но и тех, кто явился «основоположниками» данной категории населения, - исторические личности, основатели крупнейших богатейших компаний и т. д Этот цикл статей посвящен создателям всемирно известных брендов, самыми богатыми людям в своих узких кругах, например - спортсмены, актеры, политики. И, конечно же, в этом списке нашли свое место российские олигархи и бизнесмены.Одни мечтают стать богатым и жить в достатке, другие порицают людей, которые стремятся к личному материальному успеху.

Перед Вами статья из особого сборника, в котором есть сведения не только о самых богатых людях современности, но и тех, кто явился «основоположниками» данной категории населения, - исторические личности, основатели крупнейших богатейших компаний и т. д Этот цикл статей посвящен создателям всемирно известных брендов, самыми богатыми людям в своих узких кругах, например - спортсмены, актеры, политики. И, конечно же, в этом списке нашли свое место российские олигархи и бизнесмены.Одни мечтают стать богатым и жить в достатке, другие порицают людей, которые стремятся к личному материальному успеху.

Перед Вами статья из особого сборника, в котором есть сведения не только о самых богатых людях современности, но и тех, кто явился «основоположниками» данной категории населения, - исторические личности, основатели крупнейших богатейших компаний и т. д Этот цикл статей посвящен создателям всемирно известных брендов, самыми богатыми людям в своих узких кругах, например - спортсмены, актеры, политики. И, конечно же, в этом списке нашли свое место российские олигархи и бизнесмены.Одни мечтают стать богатым и жить в достатке, другие порицают людей, которые стремятся к личному материальному успеху.

Перед Вами статья из особого сборника, в котором есть сведения не только о самых богатых людях современности, но и тех, кто явился «основоположниками» данной категории населения, - исторические личности, основатели крупнейших богатейших компаний и т. д Этот цикл статей посвящен создателям всемирно известных брендов, самыми богатыми людям в своих узких кругах, например - спортсмены, актеры, политики. И, конечно же, в этом списке нашли свое место российские олигархи и бизнесмены.Одни мечтают стать богатым и жить в достатке, другие порицают людей, которые стремятся к личному материальному успеху.

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.