Код бестселлера - [68]

Шрифт
Интервал

. Затем мы сравнивали параметры книг, попавших и не попавших в список, из нашего корпуса текстов. Первой задачей было просто сравнить их и понять, есть ли между ними существенная разница. Если разница есть (допустим, оказалось, что слово and в бестселлерах встречается в два раза чаще, а слова very и passion гораздо реже по сравнению с прочими книгами) – значит, этот параметр полезен. Частота употребления отдельных слов – конечно, очень простой пример, и читатели едва ли обращают на нее внимание, но, собрав отдельные слова и грамматические конструкции в темы и построив сюжетные графики, мы получим важные, информативные данные.

В своих исследованиях мы использовали три разных алгоритма компьютерной классификации книг. Все эти алгоритмы начинают с определения места каждой книги в так называемом пространстве параметров. Количество измерений этого пространства равно количеству параметров, которые мы хотим исследовать. Иными словами, оно огромно. Поскольку людям сложно представить себе многомерное пространство, допустим, что бестселлерометр оперирует только двумя параметрами. Возьмем для примера две из 2799 характеристик, выделенных нами как важные: тему человеческой близости и частоту употребления слова very. Для каждой книги модель выдаст нам два числа – одно из них показывает долю темы человеческой близости, другое – частоту слова very. Используя эти числа, мы можем отобразить каждую книгу на координатной плоскости, которая в итоге будет выглядеть примерно так, как показано на рис. 18. Каждый значок на плоскости – один роман, а его координаты заданы этими двумя показателями.


Рис. 18


Посмотрев на график, вы заметите, что бестселлеры группируются в правом нижнем углу. Иными словами, график сообщает нам, что в бестселлерах тема человеческой близости встречается чаще (показано координатой по оси х), а слово very – реже (показано координатой по оси у). Если вы внимательно читали нашу книгу, то уже знаете это из глав о темах и стиле. Возможно, вы даже помните, что really[260] – слово более полезное, чем very, для того чтобы попасть в список бестселлеров. Мы считаем, что это позволяет сделать определенные выводы о современной тональности текста и манере выражения. Вас не удивит и то, что треугольнички сбились в кучу в левом верхнем углу: авторы этих книг уверяют вас, что очень то и очень сё, но их описания человеческих отношений не очень убедительны.

Первый метод классификации, который мы использовали, известен как «K ближайших соседей» (K Nearest Neighbors, KNN). Работа метода KNN начинается с размещения книг в пространстве параметров (примерно как на графике выше). Мы как исследователи затем решаем, чему должно быть равно К. Допустим, мы решили, что оно равно 5. Алгоритм KNN начинает классификацию книги с того, что берет пять ее ближайших соседей в пространстве. Если большинство из этих пяти книг оказываются бестселлерами, компьютер делает вывод, что исследуемая книга – тоже бестселлер, поскольку ее соседи обладают характеристиками, позволяющими попасть в заветный список. Обратите внимание на рис. 19: один бестселлер расположен заметно ближе к кластеру небестселлеров, занявшему верхний левый угол. В этом случае алгоритм KNN посмотрит на ближайшие пять книг и сделает неверный вывод, что эта книга – не бестселлер, поскольку четыре из ее пяти соседей тоже не бестселлеры. На рис. 19 область, в которой расположены соседи данной книги, показана окружностью.


Рис. 19


Все остальные бестселлеры в этом искусственно сконструированном примере будут классифицированы правильно на основании класса пяти книг, непосредственно соседствующих с ними. Единственный небестселлер, расположенный ближе всего к правому нижнему углу, будет неправильно классифицирован как бестселлер, поскольку среди пяти ближайших к нему книг есть три бестселлера и два небестселлера. Теперь вы понимаете, почему средняя точность предсказаний нашего бестселлерометра равна 80 %.

Два других использованных нами алгоритма несколько сложнее, чем KNN. Они называются «машины векторов поддержки» (Support Vector Machines, SVM) и «ближайшие сжатые центроиды» (Nearest Shrunken Centroids, NSC). Второй из них разрабатывался первоначально для классификации типов рака на основе данных экспрессии генов, а мы решили использовать его для своих целей. Подобно KNN, алгоритмы SVM и NSC также используют размещение книг в многомерном пространстве параметров. Определив положение каждой книги в этом пространстве, алгоритм SVM пытается найти максимальный зазор между заведомыми бестселлерами и заведомыми небестселлерами. Этот зазор или граница может выглядеть примерно как на рис. 20[261].

Когда в то же пространство помещают новую книгу, ее можно отнести к бестселлерам или небестселлерам в зависимости от того, с какой стороны от границы она окажется.

Алгоритм NSC концептуально близок к KNN и SVM. Он начинает работу с определения позиции всех книг в пространстве параметров, а затем находит математические центры множества всех бестселлеров и множества всех небестселлеров – «центроиды». Затем используется пороговый параметр, чтобы их сжать. Неизвестная книга классифицируется на основании того, к какому из сжатых центроидов она окажется ближе


Рекомендуем почитать
200 советов яхтенному капитану

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


713 секретов производственных технологий

Форматирование файла не завершено (Stribog).Эти не только древние, но и интересные рецепты не потеряли актуальности и в нынешнее время. Правда, хочу заметить, что не все из них безопасны. Особенно те, где используется ртуть и соли тяжелых металлов (в частности это касается раздела «Парфюмерия»). Так что думайте Сами.С уважением, Сергей Каштанов.


Противотанковая мина ТМ-72 и минный взрыватель МВН-72

Руководство предназначается для изучения тактико-технических характеристик, устройства принципа действия, правил применения, хранения и транспортировки противотанковой мины ТМ-72 и минного взрывателя МВН-72.


Советский анекдот

Вниманию читателей предлагается первая научная публикация тематически разнородных анекдотов, имевших хождение в СССР с 1917 по 1991 год. Указатель представляет собой систематизированное собрание записей советских анекдотов. В издание вошли материалы из прессы, эмигрантских сборников, сводок о настроениях населения, доносов, судебных дел, записей фольклористов-любителей, дневников современников и прочих источников. Всего в Указателе 5852 статьи, каждая из которых посвящена одному анекдотическому сюжету.


Учимся читать в три раза быстрее за 20 минут - Лайфхакер

rufb2edit 0.0.908 сен 2015http://lifehacker.ru/2015/01/22/chitat-v-3-raza-bystree/web2fb2_201509080815_87756238791.0Учимся читать в три раза быстрее за 20 минут - ЛайфхакерИя Зорина 22 января 2015Учимся читать в три раза быстрее за 20 минутУмение быстро читать освобождает кучу свободного времени. Только представьте, вы можете в три раза быстрее справляться со всей литературой — технической, профессиональной или художественной. А теперь приятная новость: в отличие от большинства навыков, которые нужно осваивать постепенно, скорочтение доступно вам уже через 20 минут тренировки.


Молодежный словарь

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.