Код бестселлера - [68]

Шрифт

Интервал

. Затем мы сравнивали параметры книг, попавших и не попавших в список, из нашего корпуса текстов. Первой задачей было просто сравнить их и понять, есть ли между ними существенная разница. Если разница есть (допустим, оказалось, что слово and в бестселлерах встречается в два раза чаще, а слова very и passion гораздо реже по сравнению с прочими книгами) – значит, этот параметр полезен. Частота употребления отдельных слов – конечно, очень простой пример, и читатели едва ли обращают на нее внимание, но, собрав отдельные слова и грамматические конструкции в темы и построив сюжетные графики, мы получим важные, информативные данные.

В своих исследованиях мы использовали три разных алгоритма компьютерной классификации книг. Все эти алгоритмы начинают с определения места каждой книги в так называемом пространстве параметров. Количество измерений этого пространства равно количеству параметров, которые мы хотим исследовать. Иными словами, оно огромно. Поскольку людям сложно представить себе многомерное пространство, допустим, что бестселлерометр оперирует только двумя параметрами. Возьмем для примера две из 2799 характеристик, выделенных нами как важные: тему человеческой близости и частоту употребления слова very. Для каждой книги модель выдаст нам два числа – одно из них показывает долю темы человеческой близости, другое – частоту слова very. Используя эти числа, мы можем отобразить каждую книгу на координатной плоскости, которая в итоге будет выглядеть примерно так, как показано на рис. 18. Каждый значок на плоскости – один роман, а его координаты заданы этими двумя показателями.

Рис. 18

Посмотрев на график, вы заметите, что бестселлеры группируются в правом нижнем углу. Иными словами, график сообщает нам, что в бестселлерах тема человеческой близости встречается чаще (показано координатой по оси х), а слово very – реже (показано координатой по оси у). Если вы внимательно читали нашу книгу, то уже знаете это из глав о темах и стиле. Возможно, вы даже помните, что really[260] – слово более полезное, чем very, для того чтобы попасть в список бестселлеров. Мы считаем, что это позволяет сделать определенные выводы о современной тональности текста и манере выражения. Вас не удивит и то, что треугольнички сбились в кучу в левом верхнем углу: авторы этих книг уверяют вас, что очень то и очень сё, но их описания человеческих отношений не очень убедительны.

Первый метод классификации, который мы использовали, известен как «K ближайших соседей» (K Nearest Neighbors, KNN). Работа метода KNN начинается с размещения книг в пространстве параметров (примерно как на графике выше). Мы как исследователи затем решаем, чему должно быть равно К. Допустим, мы решили, что оно равно 5. Алгоритм KNN начинает классификацию книги с того, что берет пять ее ближайших соседей в пространстве. Если большинство из этих пяти книг оказываются бестселлерами, компьютер делает вывод, что исследуемая книга – тоже бестселлер, поскольку ее соседи обладают характеристиками, позволяющими попасть в заветный список. Обратите внимание на рис. 19: один бестселлер расположен заметно ближе к кластеру небестселлеров, занявшему верхний левый угол. В этом случае алгоритм KNN посмотрит на ближайшие пять книг и сделает неверный вывод, что эта книга – не бестселлер, поскольку четыре из ее пяти соседей тоже не бестселлеры. На рис. 19 область, в которой расположены соседи данной книги, показана окружностью.

Рис. 19

Все остальные бестселлеры в этом искусственно сконструированном примере будут классифицированы правильно на основании класса пяти книг, непосредственно соседствующих с ними. Единственный небестселлер, расположенный ближе всего к правому нижнему углу, будет неправильно классифицирован как бестселлер, поскольку среди пяти ближайших к нему книг есть три бестселлера и два небестселлера. Теперь вы понимаете, почему средняя точность предсказаний нашего бестселлерометра равна 80 %.

Два других использованных нами алгоритма несколько сложнее, чем KNN. Они называются «машины векторов поддержки» (Support Vector Machines, SVM) и «ближайшие сжатые центроиды» (Nearest Shrunken Centroids, NSC). Второй из них разрабатывался первоначально для классификации типов рака на основе данных экспрессии генов, а мы решили использовать его для своих целей. Подобно KNN, алгоритмы SVM и NSC также используют размещение книг в многомерном пространстве параметров. Определив положение каждой книги в этом пространстве, алгоритм SVM пытается найти максимальный зазор между заведомыми бестселлерами и заведомыми небестселлерами. Этот зазор или граница может выглядеть примерно как на рис. 20[261].

Когда в то же пространство помещают новую книгу, ее можно отнести к бестселлерам или небестселлерам в зависимости от того, с какой стороны от границы она окажется.

Алгоритм NSC концептуально близок к KNN и SVM. Он начинает работу с определения позиции всех книг в пространстве параметров, а затем находит математические центры множества всех бестселлеров и множества всех небестселлеров – «центроиды». Затем используется пороговый параметр, чтобы их сжать. Неизвестная книга классифицируется на основании того, к какому из сжатых центроидов она окажется ближе

Продолжить чтение

Рекомендуем почитать

Валентин Пустовалов

Справочник велосипедиста

В справочнике описаны конструкции основных моделей отечественных велосипедов всех типов. Изложены правила эксплуатации их и даны рекомендации по ремонту, который может выполнить сам велосипедист. Книга предназначена для широкого круга велосипедистов, а также работников велосипедных мастерских и заводов.

Ирина Ивонина

Секреты безопасной покупки подержанного автомобиля

Выбор и покупка подержанного автомобиля в России до недавнего времени были лотереей. Проигрыш в этой лотерее означал сотни тысяч рублей, выпущенных на ветер. Однако эта книга, представляющая собой краткое руководство по приобретению б/у машины, а также услуги нашего сервиса «АвтоКод» помогут свести риск нарваться на мошенников к нулю!

Александр Долгих

Секреты автоподбора, или Как выбрать лучший на рынке подержанный автомобиль

Я не раз удивлялся и открывал для себя новое: ну, откуда этот парень может знать это? А это? Сколько же ему понадобилось сменить подержанных автомобилей, чтобы узнать всё это? И прочитав всю эту книгу, я ни разу не испытал чувства протеста, несогласия с автором. Поэтому и рекомендую ее вам, дорогой читатель, – с чистой совестью. Юрий Гейко, журналист, автор и ведущий программы «Автоликбез» на «Авторадио».

А Айрапетян

Краткий медицинский терминологический словарь

Вашему вниманию предлагается Краткий медицинский терминологический словарь.

Борис Талис

С Америкой на «ты»

«С Америкой на „ты“ — это второе издание справочника о современной Америке. Он адресован, в основном, тем, кто собирается или уже приехал в США. Автор книги Борис Талис, гражданин Америки, как и любой другой иммигрант, прошел нелегкий путь адаптации, не по наслышке знает о трудностях, с которыми сталкиваются те, кто волею судьбы оказываются в незнакомой стране, и искренне стремится им помочь.Из книги вы узнаете все самое важное о жизни в США! От государственного и политического устройства страны до житейских советов и пословиц.

Неизвестный Автор

Телефонный компас

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.