Прикладное программное обеспечение: системы автоматической обработки текстов - [15]

Шрифт
Интервал

Важным компонентом информационного обеспечения системы ЛИНАР является и лингвистическая база знаний, содержащая базовые общие знания о русском языке. Кроме того, ЛИНАР использует тематический словарь и тезаурус предметной области, к которой относятся обрабатываемые тексты, и описания нормативных требований, предъявляемых к текстам. Соответствующие информационные массивы создавались разработчиками системы на основе общеязыковых и предметно-ориентированных словарей и справочников, Государственных стандартов и отраслевых инструкций по оформлению текстовых документов.

База знаний ЛИНАР содержит также заранее формируемый - и пополняемый в ходе эксплуатации системы - банк адресатов: конкретных читателей или определенных однородных групп читателей (конкретный руководитель научно-исследовательского проекта; конкретный представитель руководства организации-заказчика; инженеры, которые будут создавать описываемый программно-аппаратный комплекс и др.). Настройка на адресата производится в начале очередного сеанса работы с ЛИНАР. При такой настройке могут меняться базовые и тематические лингвистические знания (состав словаря, совокупность грамматических правил), степень жесткости требований по соблюдению тех или иных норм и условий.

Чтобы задать эту информацию, следует указать имя одного из известных ЛИНАР адресатов (или идентификатор известной группы адресатов) и выбрать значения дополнительных параметров программ контроля.

С помощью такой настройки удается моделировать процесс восприятия текста разными адресатами и, следовательно, оценивать качество текста с разных точек зрения.

Таким образом, К-знания ЛИНАР (которые служат критерием корректности текста и используются для обнаружения "дефектов" текста - отклонений от требований, предъявляемых К-знаниями) формируются динамически в каждом конкретном сеансе работы с системой и являются комплексными по своей природе. Они включают как процедурные знания об исследуемом аспекте текста (воплощенные в соответствующих программах контроля), так и декларативные знания, фильтруемые и конкретизируемые в начале каждого сеанса.

Обнаруженные программой контроля несоответствия текста и К-знаний могут быть устранены двумя способами:


путем внесения изменений в текст (это наиболее частый случай: несоответствие - суть ошибка, допущенная в тексте, которую необходимо исправить);

путем изменения К-знаний системы.Заметим, что изменениям подвергается лишь один компонент К-знаний - лингвистические знания, причем не все, а лишь те, которые соответствуют наиболее подвижной части естественного языка - лексикону. Как правило, такие изменения заключаются в пополнении базы знаний, например, в создании новой словарной статьи для слова, впервые встретившегося в тексте и не знакомого системе. Знания, отображающие требования семантической корректности и простоты интерпретации, общеязыковые и внешние нормы, может изменять только администратор системы.

Для внесения изменений в базу лингвистических знаний используются сервисные программы; для изменения текста - подсистема редактирования ЛИНАРа.

Отметим, что (даже при работе с ЛИНАР в диалоговом режиме) редактирование текста обычно производится по завершении работы программ контроля. Это связано с тем, что исправление фиксируемых системой ошибок и неточностей зачастую требует переделки относительно больших фрагментов текста (разбиение длинной фразы на несколько более простых, устранение неоднозначности трактовки и т.п.). Однако некоторые - локальные - изменения можно внести в текст сразу же в момент обнаружения ошибки. Поэтому в ряде программ контроля, например, в программах орфографического уровня, предусмотрена возможность исправления фиксируемых ошибок в момент их обнаружения.

2.3.3. Программы контроля

Программы контроля текста могут быть классифицированы по нескольким критериям.

Первый критерий связан с анализируемым программой аспектом текста. В соответствии с этим критерием выделяются следующие группы программ одноаспектного контроля:

– контроль орфографии (включая поиск ошибок в склонении и спряжении слов);

– анализ лексического состава текста;

– стилистический контроль;

– проверка выполнения правил структуризации текста;

– контроль синтаксической структуры;

– пунктуационный контроль;

– семантический контроль.

По второму критерию программы одноаспектного контроля подразделяются на программы локального и глобального анализа текста. Программы первой группы обрабатывают мелкие фрагменты текста: отдельные словоформы, словосочетания, специальные символы, не исследуя их контекстные связи или ограничиваясь учетом ближайшего окружения (соседнего слова справа, например). Локальный анализ характерен для программ орфографического, лексического и (частично) стилистического контроля. Программы, осуществляющие глобальный анализ, исследуют, как правило, структуру более крупных единиц текста: фраз и иногда абзацев (синтаксический и семантический контроль), текста в целом.

Третий критерий связан с характером результата, получаемого программой одноаспектного анализа. Основная часть программ контроля обнаруживает те или иные несоответствия текста и К-знаний, используемых в текущем сеансе. Результатом их работы является список выявленных несоответствий (нарушений). Однако некоторые программы, как уже отмечалось, определяют отдельные свойства текста, не оценивая их. Так, программа ЛЕКС1 составляет частотный словарь исследуемого текста (фрагмента текста). Оценку полученным результатам дает человек - пользователь ЛИНАР, он же принимает решение о дальнейших действиях. Его реакция может быть, например, такой - поработать над текстом пункта 4.5.1., поскольку в этом тексте (занимающем всего две страницы) 26 раз встречается слово


Рекомендуем почитать
Зарубежная литература XVIII века. Хрестоматия научных текстов

Издание представляет собой вторую часть практикума, подготовленного в рамках учебно-методического комплекса «Зарубежная литература XVIII века», разработанного сотрудниками кафедры истории зарубежных литератур СПбГУ. В него вошли фрагменты работ ведущих специалистов по западноевропейской и американской литературам XVIII в., снабженные контрольными заданиями. Материалы хрестоматии могут служить дополнительным источником информации о творчестве английских, французских, итальянских, американских и немецких писателей XVIII в.


Литература с Дмитрием Быковым

Назовите самые популярные переводные детские книги. Не сомневаемся, что в ваш список попадут повести о муми-троллях Туве Янссон, «Алиса в Стране чудес» Кэрролла, «Хроники Нарнии» Льюиса, эпопея «Властелин колец» Толкина, романы Дж.К. Роулинг о Гарри Поттере. Именно о них – ваших любимых (или нелюбимых) книгах – и пойдет речь в этом сборнике. Их читают не по программе, а для души. Поэтому рассуждать о них будет самый известный литературный критик, поэт и писатель, популяризатор литературы Дмитрий Быков. Его яркие, эмоциональные и невероятно интересные выступления в лектории «Прямая речь» давно привлекают школьников и родителей.


Сожжение книг. История уничтожения письменных знаний от античности до наших дней

На протяжении всей своей истории люди не только создавали книги, но и уничтожали их. Полная история уничтожения письменных знаний от Античности до наших дней – в глубоком исследовании британского литературоведа и библиотекаря Ричарда Овендена.


Старая русская азбука

«Старая русская азбука» – это не строгая научная монография по фонетике. Воспоминания, размышления, ответы на прочитанное и услышанное, заметки на полях, – соединённые по строгому плану под одной обложкой как мозаичное панно, повествующее о истории, философии, судьбе и семье во всём этом вихре событий, имён и понятий.В формате PDF A4 сохранен издательский макет.


Расшифрованный Достоевский. «Преступление и наказание», «Идиот», «Бесы», «Братья Карамазовы»

Книга известного литературоведа, доктора филологических наук Бориса Соколова раскрывает тайны четырех самых великих романов Федора Достоевского – «Преступление и наказание», «Идиот», «Бесы» и «Братья Карамазовы». По всем этим книгам не раз снимались художественные фильмы и сериалы, многие из которых вошли в сокровищницу мирового киноискусства, они с успехом инсценировались во многих театрах мира. Каково было истинное происхождение рода Достоевских? Каким был путь Достоевского к Богу и как это отразилось в его романах? Как личные душевные переживания писателя отразились в его произведениях? Кто был прототипами революционных «бесов»? Что роднит Николая Ставрогина с былинным богатырем? Каким образом повлиял на Достоевского скандально известный маркиз де Сад? Какая поэма послужила источником знаменитой легенды о «Великом инквизиторе»? Какой должна была быть судьба героев «Братьев Карамазовых» в так и ненаписанном Федором Михайловичем втором томе романа? На эти и другие вопросы о жизни и творчестве Достоевского читатель найдет ответы в этой книге.


Придворная словесность: институт литературы и конструкции абсолютизма в России середины XVIII века

Институт литературы в России начал складываться в царствование Елизаветы Петровны (1741–1761). Его становление было тесно связано с практиками придворного патронажа – расцвет словесности считался важным признаком процветающего монархического государства. Развивая работы литературоведов, изучавших связи русской словесности XVIII века и государственности, К. Осповат ставит теоретический вопрос о взаимодействии между поэтикой и политикой, между литературной формой, писательской деятельностью и абсолютистской моделью общества.