Компьютерра PDA N166 (31.03.2012-06.04.2012) - [12]

Шрифт
Интервал

Если с компьютерами вопросов, обычно, не возникает, то роль лингвиста почему-то в общественном сознании откровенно не дотягивает до заслуженного места. В лучшем случае, обывателю приходит в голову: переводчик какой-то! Если на пике славы, то - Гоблин. Больше ничего. Неужели придется дожидаться эпохи «Stargate» (помните еще культовый фильм Роланда Эммериха?), чтобы понять, что лингвист - это главный пророк нашей цивилизации (астролог, Дельфийский оракул и компьютерный томограф в одном флаконе!)?

Эк меня понесло! Короче говоря, один из разработчиков, Дмитрий Силницкий, зная о моих слабостях в сфере интерпретации смыслов и дата-майнинга, прислал на тестирование демо-версию совершенно уникального движка, который выполняет сравнительный анализ текстов по авторскому стилю и жанру.  

При этом движок понятия не имеет о существовании автора имярек, да и вообще не догадывается о смысле слов и денотатах в принципе. Основа движка -  графематический анализ, оперирующий лишь цепочками языковых символов -  знаками, буквами и словоформами!

Для хотя бы приблизительного объяснения этого монстра позволю небольшую цитату из теоретического сопровождения разработок (текст Игоря Ножова из РГГУ): 

«Основная цель графематического блока получить выборку полных словоформ из массива текстов базы данных.  Графематический анализ работает с внешним представлением текста и использует таблицу стоп-слов. В этой таблице хранятся цифры, спецсимволы и частотные слова языка, нерелевантные для поиска по текстам.

Графематический анализ выполняет три функции:

1. отсечение стоп-слов в тексте;

2. разбиение данных на три потока;

3. индексация каждого потока.

Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных:

- цифровые и символьные комплексы (‘кг’, ‘ст.’, ’12.01.99’);

- аббревиатуры - названия государств, организаций, предприятий (‘СССР’, ‘ЮНЕСКО’, ‘ДорСтройСервис’);

- полные словоформы»

В результате столь необычного и внешне совершенно схоластического анализа мы получаем более, чем осмысленные результаты. Именно созерцание практических результатов произвело на меня неизгладимое впечатление.

Я получил демо-версии аналитического движка для двух баз данных. Первая - англоязычная - проводила  стилистический и жанровый анализ относительно хоть и скромной, но вполне репрезентативного массива данных, насчитывающего 2995 авторов и 6266 произведений. Вторая - русскоязычная - чисто номинальная - лишь 700 книг авторов, выражающих мысли на великом и могучем. 

Естественно я начал тестирование с себя любимого: ввел в анализатор текст книги «Как зовут вашего бога». На выходе получил такой результат:

Как видите графематический анализатор опознал мой стиль почти с абсолютной точностью - коэффициент корреляции 95,84 %! Далее идет Вильгельм Адам (кто это?) и много всяких незнакомых товарищей - вплоть до Ильфа и Петрова (62,70 %) и Михаила Веллера (42,66%).

Проверим теперь анализатор на коротких текстах - ввожу «Дело русских медведей», то есть одну из последних Голубятен:

Забавно, не правда ли? Корреляция с самим собой пропала, что не удивительно: на 5 тысячах знаков никакой глубины ожидать не приходится. Зато всплыли чужие ассоциации. Так мой сегодняшний стиль демонстрирует самый высокий коэффициент стилистической и жанровой корреляции с Михаилом Веллером (55,76 %). Далее следует Вячеслав Алексеев (это кто?), Хорхе Луис Борхес (я старался!), Шарль Бодлер (откуда анализатор знает про моего самого любимого поэта?!) и т.д. Даже обожаемый Аутагава Рюноскэ  присутствует в первой десятке корреляции!

Тысяча чертей: но ведь это же не в бровь, а в самый глаз! 

Как и полагается, честному смекалкину, советского замеса, я тут же захотелось всунуть лом между приводной цепью и шестернями анализатора, поэтому скормил ему голубятню образца 2004 года («Лингвистический анализ одного отстойника: призраки ФИДО в XXI веке»)! 

Опять нет прямой корреляции с автором, но подтвердился Веллер на первом месте. И Рюноскэ. Зато исчез Бодлер (старею?).

Признаюсь, результат сразил меня наповал. Понимаете, в чем дело: я же очень хорошо знаю креативные импульсы, наполняющие мои тексты. Меняется рациональное осмысление письма, его техника, приемы, стилистические фигуры и уловки, но стилистическую основу изменить нельзя - она сидит глубоко в подсознании! И там у меня - кладезь морализма, детского идеализма, романтизма, замешанного на трагичном восприятии жизни. Рюноскэ и Бодлер - очень точное описание моих чувств, преломленных через создаваемые тексты. Плюс -  l’art naif на уровне семантики, синтаксиса, подбора метафор. 

Все эти довольно своеобразные жанровые и стилистические особенности моих текстов, отделенных друг от друга 9 годами, графематический анализатор уловил поразительным образом! Не зная ни имен, ни культурологических контекстов автора! Не говоря уже о консистентности стиля и жанра во времени (9 лет дистанции все-таки!). Потрясающе!


Еще от автора Журнал «Компьютерра»
Компьютерра, 2007 № 15 (683)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2008 № 01-02 (717-718)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2008 № 10 (726)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2005 № 27-28 (599-600)

Документ создан на основе открытого контента, расположенного по адресуhttp://offline.computerra.ru/2005/599/Размер изображений не менялся, поэтому некоторые могут быть некорректно отображены на неVGA-моделях КПК (особенно скриншоты и таблицы).


Цифровой журнал «Компьютерра» 2013 № 18 (171)

ОглавлениеКолонкаПочему мы позволяем нас обманывать, или Грустные размышления об иррациональности политической жизни Автор: Дмитрий ШабановГолубятня: Samsung Galaxy S4 — цидули перебежчика (часть 1) Автор: Сергей ГолубицкийУроки любви к Родине: McAfee патентует технологию обнаружения и блокировки пиратского содержания Автор: Сергей ГолубицкийПодпадает ли астрономия под закон о митингах Автор: Дмитрий ВибеIT-рынокНасколько глупа шумиха вокруг «умных» часов? Автор: Андрей ПисьменныйПромзонаПосмотрите на свалку, которую китайцы превратили в парк Автор: Николай МаслухинЭтот сайт позволяет создать собственное световое шоу на точном макете Токио Автор: Николай МаслухинТехнологииДжипег, подвинься! Веппи как единственный необходимый графический формат Автор: Евгений ЗолотовИнновацииПочему менеджерам российских корпораций не нужны стартапы Автор: Елена КраузоваИнга Нахмансон (Fitting Reality): «Российскому e-commerce не до виртуальности» Автор: Елена КраузоваГидGoogle Now для iOS появился без лишнего шума и уже собирает сведения Автор: Андрей Васильков.


Компьютерра, 2006 № 06 (626)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Рекомендуем почитать
День Литературы, 2001 № 06 (057)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2002 № 11 (075)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2002 № 07 (071)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2002 № 03 (067)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2003 № 02 (078)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2010 № 02 (162)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра PDA N79 (18.12.2010-24.12.2010)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Ваймучени из Пятого МираВаннах Михаил: Кафедра Ваннаха: Машины культурЕгор Емельянов: Всё, что нужно знать о четвёртом поколении Eee PCЕвгений Крестников: Российские IT-компании за рубежом: ISDEFВасилий Щепетнев: Василий Щепетнёв: Ответ векаАлександр Деревянко: Как Nvidia Optimus помогает экономить энергиюЕвгений Крестников: Российские IT-компании за рубежом: SpiritОлег Нечай: Платформа ПК: чего ждать в 2011 годуЕгор Емельянов: Софт: SIPPOINT - клиент для сети SIPNETОлег Нечай: Интегрированная графика в ноутбукахАлла Аршинова: Вадим Яковлев (ИК СО РАН) о перспективах биотопливаВасилий Щепетнев: Василий Щепетнёв: Двадцать восьмое желаниеЮрий Ильин: Кирилл Фаенов о суперкомпьютерах и MicrosoftСергей Голубицкий: Голубятня: Подстава (окончание)Олег Нечай: Оптические приводы DVD и Blu-ray в современных ноутбукахВаннах Михаил: Кафедра Ваннаха: Ирландия – виски и прочееПавел Скоков, Mobi.ru: Highscreen Hippo - коммуникатор в планшетеЕвгений Крестников: Российские IT-компании за рубежом: ЦРТАнатолий Вассерман: Твердотельные накопители.


Компьютерра PDA 03.10.2009-09.10.2009

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра PDA N167 (07.04.2012-13.04.2012)

ОГЛАВЛЕНИЕВасилий Щепетнев: Василий Щепетнёв: ЭлектрозависимостьСергей Голубицкий: Голубятня: Вымывание традицииЮрий Ильин: Крис Каспрзак (Siemens PLM Software) о PLMМихаил Ваннах: Кафедра Ваннаха: Забыть Макнамару?Сергей Голубицкий: Голубятня: Дело русских "медведей": fiat lux!Олег Нечай: Отзывчивые экраны: гаптические технологии в дисплеяхДмитрий Вибе: Уси-пуси, Вселенная.


Компьютерра PDA N54 (04.09.2010-10.09.2010)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Оттачиваем дефиницииМихаил Карпов: Глава Twitter рассказал об информационной перегрузкеНиколай Маслухин: Промзона: Кроссовки из "Назад в будущее"Василий Щепетнев: Василий Щепетнёв: На пальмы!Юрий Ильин: Вокруг Apple сгущаются "облака"Михаил Карпов: Конкурс для любителей электронных книгИгорь Осколков: Клавиатура Thermaltake Challenger Pro для геймеровАндрей Письменный: IFA 2010: Раз планшет, два планшетВаннах Михаил: Кафедра Ваннаха: Мемристоры и приемные детиСергей Голубицкий: Голубятня: Почему умрёт AndroidНиколай Маслухин: Промзона: Стерилизатор кухонных досокМихаил Карпов: NASA разрабатывает "рой" спутников-"камикадзе"Олег Нечай: Память из оксида кремния: дефект не всегда дефектМихаил Карпов: Полиция совершила рейды на серверы "варезных" группЕвгений Крестников: Google Wave закроется не совсемМихаил Карпов: Семь самолётов помогут лучше понять ураганыНиколай Маслухин: Промзона: Браслет-смартфонМихаил Карпов: Google будет искать без запросовВасилий Щепетнев: Василий Щепетнёв: МетаинфляцияOtto Diggman: Readitorial: Сумма будущего.