Прикладное программное обеспечение: системы автоматической обработки текстов - [20]

Шрифт
Интервал

, где указаны их синонимические, морфологические и ассоциативные отношения.

4.2. Тезаурус

Тезаурус - специально организованный нормативный словарь лексических единиц информационно-поискового и естественного языка. Лексическими единицами информационно-поискового языка являются дескрипторы. Дескриптор ставится в однозначное соответствие группе ключевых слов естественного языка, отобранных из текста определенной предметной области. Например, в качестве дескриптора может быть выбрано любое (предпочтительно наиболее часто используемое или короткое) ключевое слово или словосочетание или же цифровой код. Многозначному слову естественного языка соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям - один дескриптор. Тезаурус учитывает семантические связи между словами: антонимы, синонимы, гипонимы, гиперонимы, ассоциации.

Синонимы - слова (словосочетания), разные по написанию, но одинаковые (в рассматриваемой предметной области) по значению: ведьма = злая волшебница. Антонимы - слова с противоположным значением: добрый - злой. Гипоним - термин, являющийся частным случаем другого, более общего понятия. Гипероним - термин, наоборот, являющийся общим для ряда других, частных понятий.

Солдат = гипоним (военный); человек= гипероним (военный)

гипероним (вкусно готовит)= гипероним (содержит дом в чистоте)=

гипероним (умеет шить)= хорошая хозяйка.

В Государственном стандарте на "Тезаурус информационно-поисковый одноязычный" определены следующие типы связей:

– род-вид: средства передвижения - телега, ковер-самолет, сапоги-скороходы, печка

– часть-целое: стена, дверь, курья ножка - части избушки;

– причина-следствие: опустил меч - голова с плеч;

– сырье-продукт: сталь - меч;

– административная иерархия: султан - визирь - стражник;

– процесс-субъект: казнить - палач;

– процесс-объект: казнить - жертва;

– функциональное сходство: печка Емели - джип Cherokee;

– свойство - носитель свойства: огнедышащий - дракон;

– антонимия;

– синонимия.

Ассоциативное отношение является объединением других отношений, не входящих в иерархические отношения или в отношения синонимии (то есть любые виды связей между словами, возможно весьма специфичные, существующие только в определенной предметной области).

Словарная статья (на неформальном уровне) могла бы выглядеть так:

ПРЕМУДРАЯ = умная

АНТОНИМ - глупая

ГИПОНИМЫ: знающая, образованная, догадливая, начитанная

ВИД - показатель интеллекта (высокий)

Тезаурус и грамматика составляют информационно-поисковый язык. Грамматика содержит правила образования производных единиц языка (семантических кодов, синтагм, предложений) и регламентирует использование средств обозначения синтаксических отношений (например, указателей связи).

В рассмотренной выше сказочной информационной службе знакомств тезаурус должен описывать всевозможные качества и характеристики, встречающиеся в письмах клиентов, правила их классификации. Грамматика и тезаурус должны быть составлены таким образом, чтобы система могла понимать, что задает, скажем, число, указанное в запросе: рост, возраст или количество зубов (это может определяться по ключевому слову - единице измерения), уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесь помогут словосочетания хотел бы познакомиться, должен соответствовать).

На основании тезауруса и правил грамматики формируются поисковые образы документа и запроса (поисковое предписание). Поисковое предписание - текст на информационно-поисковом языке, содержащий признаки документов, затребованных пользователем в запросе.

Поисковый образ документа - текст на информационно-поисковом языке, поставленный в однозначное соответствие документу и отражающий его признаки, необходимые для поиска его по запросу. Кроме поисковых признаков, раскрывающих содержание документа или, как минимум, определяющих его тему, поисковый образ документа обычно содержит также идентифицирующие и некоторые дополнительные сведения (выходные данные, тип документа, его язык и т.д.). Поисковые предписания формируются при поступлении запросов, а поисковые образы документов могут создаваться как при пополнении системы новыми документами, так и при поиске ответа на запрос. В системах, где потоки информации велики и часто обновляемы, нет необходимости тратить ресурсы на индексирование, и за поисковый образ документа часто принимается сам документ или же его название.

4.3. Релевантность

Целью ИПС является выдача документов, релевантных (семантически соответствующих) запросу (по-английски relevant - относящийся к делу). Различают релевантностьсодержательную и формальную. Релевантность содержательная трактуется как соответствие документа информационному запросу, определяемое неформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев и выберет кандидатов в женихи, отвечающих ее требованиям), а релевантность формальная - как соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе


Рекомендуем почитать
Дети и тексты. Очерки преподавания литературы и русского языка

Книга посвящена изучению словесности в школе и основана на личном педагогическом опыте автора. В ней представлены наблюдения и размышления о том, как дети читают стихи и прозу, конкретные методические разработки, рассказы о реальных уроках и о том, как можно заниматься с детьми литературой во внеурочное время. Один раздел посвящен тому, как учить школьников создавать собственные тексты. Издание адресовано прежде всего учителям русского языка и литературы и студентам педагогических вузов, но может быть интересно также родителям школьников и всем любителям словесности. В формате PDF A4 сохранен издательский макет.


Литература с Дмитрием Быковым

Назовите самые популярные переводные детские книги. Не сомневаемся, что в ваш список попадут повести о муми-троллях Туве Янссон, «Алиса в Стране чудес» Кэрролла, «Хроники Нарнии» Льюиса, эпопея «Властелин колец» Толкина, романы Дж.К. Роулинг о Гарри Поттере. Именно о них – ваших любимых (или нелюбимых) книгах – и пойдет речь в этом сборнике. Их читают не по программе, а для души. Поэтому рассуждать о них будет самый известный литературный критик, поэт и писатель, популяризатор литературы Дмитрий Быков. Его яркие, эмоциональные и невероятно интересные выступления в лектории «Прямая речь» давно привлекают школьников и родителей.


Сожжение книг. История уничтожения письменных знаний от античности до наших дней

На протяжении всей своей истории люди не только создавали книги, но и уничтожали их. Полная история уничтожения письменных знаний от Античности до наших дней – в глубоком исследовании британского литературоведа и библиотекаря Ричарда Овендена.


Старая русская азбука

«Старая русская азбука» – это не строгая научная монография по фонетике. Воспоминания, размышления, ответы на прочитанное и услышанное, заметки на полях, – соединённые по строгому плану под одной обложкой как мозаичное панно, повествующее о истории, философии, судьбе и семье во всём этом вихре событий, имён и понятий.В формате PDF A4 сохранен издательский макет.


Расшифрованный Достоевский. «Преступление и наказание», «Идиот», «Бесы», «Братья Карамазовы»

Книга известного литературоведа, доктора филологических наук Бориса Соколова раскрывает тайны четырех самых великих романов Федора Достоевского – «Преступление и наказание», «Идиот», «Бесы» и «Братья Карамазовы». По всем этим книгам не раз снимались художественные фильмы и сериалы, многие из которых вошли в сокровищницу мирового киноискусства, они с успехом инсценировались во многих театрах мира. Каково было истинное происхождение рода Достоевских? Каким был путь Достоевского к Богу и как это отразилось в его романах? Как личные душевные переживания писателя отразились в его произведениях? Кто был прототипами революционных «бесов»? Что роднит Николая Ставрогина с былинным богатырем? Каким образом повлиял на Достоевского скандально известный маркиз де Сад? Какая поэма послужила источником знаменитой легенды о «Великом инквизиторе»? Какой должна была быть судьба героев «Братьев Карамазовых» в так и ненаписанном Федором Михайловичем втором томе романа? На эти и другие вопросы о жизни и творчестве Достоевского читатель найдет ответы в этой книге.


Придворная словесность: институт литературы и конструкции абсолютизма в России середины XVIII века

Институт литературы в России начал складываться в царствование Елизаветы Петровны (1741–1761). Его становление было тесно связано с практиками придворного патронажа – расцвет словесности считался важным признаком процветающего монархического государства. Развивая работы литературоведов, изучавших связи русской словесности XVIII века и государственности, К. Осповат ставит теоретический вопрос о взаимодействии между поэтикой и политикой, между литературной формой, писательской деятельностью и абсолютистской моделью общества.