Прикладное программное обеспечение: системы автоматической обработки текстов - [13]

Шрифт
Интервал

, сидевши), которые имеют в словарях стилистические пометы: просторечное, устарелое, разговорное, областное и др.

Следующий критерий классификации ошибок (мотивированных и случайных) связан с языковыми уровнями, нормы (правила) которых оказываются нарушенными в результате речевых ошибок. В соответствии с этим критерием речевые ошибки можно классифицировать следующим образом:

1) орфографические ошибки: пропуск одной буквы, замена одной буквы, перестановка двух рядом стоящих букв, одна лишняя буква (отдельно может рассматриваться случай удвоения буквы), замена буквы русского алфавита буквой латиницы и др.;

2) морфологические (словоизменительный уровень) ошибки: ошибки в окончаниях (флексиях) при склонении и спряжении слов (рассматриваются различные подклассы таких ошибок), употребление отсутствующих в языке форм слов, несоблюдение правил чередования в основе, употребление незнакомых АОТ-системе вариантов слов, испытывающих колебания в роде, одушевленности;

3) синтаксические ошибки: ошибки в моделях управления слов-предикатов, пунктуационные ошибки, нарушение нормативного порядка слов (в том числе - в устойчивых словосочетаниях), вставка пробела внутрь слова, пропуск пробела (отдельно могут рассматриваются случаи слитного и раздельного написания частиц не и ни);

4) лексико-семантические ошибки: употребление слов в ненормативном значении, нарушение лексической сочетаемости, семантические противоречия.

Диагностика речевых ошибок

Методы обнаружения и исправления орфографических и морфологических ошибок в текстах широкой тематики базируются на представлении о тексте как о цепочке независимо появляющихся словоформ. Известно три основных метода обнаружения орфографических ошибок - статистический, полиграммный и словарный.

При статистическом методе словоформы, обнаруживаемые в тексте, упорядочиваются согласно частоте их встречаемости. Искаженные слова оказываются среди малоупотребительных слов в конце списка.

При полиграммном методе все встречающиеся в тексте двух- или трёхбуквенные сочетания (полиграммы) проверяются по таблицам, содержащим информацию об их допустимости в русском языке. Если в словоформе имеются недопустимые полиграммы, то она считается неправильной.

При словарном методе все входящие в текст словоформы проверяются по компьютерному словарю. Если словарь такую форму допускает, она считается правильной, а иначе либо сразу признаётся ошибочной, либо предъявляется человеку.

В настоящее время первые два метода практически не используются, т.к. уже есть хорошие компьютерные словари, достаточно большие по объёму и с эффективным доступом.

Диагностика же и исправление синтаксических, пунктуационных и лексико-семантических ошибок предполагает взгляд на текст как на последовательность связанных единиц, комбинирование которых имеет свои закономерности. Подходы к автоматизации выявления и коррекции этих ошибок можно разбить на две группы: синтаксически-ориентированные подходы и подходы, основанные на концептуальных фреймах. Последние больше пригодны для систем, работающих в строго ограниченных предметных областях. Для текстов широкой тематики предназначены синтаксически ориентированные подходы. Сначала поступившее на вход предложение обрабатывается средствами грамматики, рассчитанной на синтаксически правильный текст. Если такая проверка обнаруживает дефекты синтаксической структуры, некоторые условия ослабляются. Какие грамматические правила смягчаются, зависит от учитываемых системой ошибок. Например, в русских текстах иногда оказывается пропущенной запятая, обособляющая причастный оборот в постпозиции. Для того, чтобы такое предложение могло быть обработано, требуется временная отмена условия (присутствующего в каноническом правиле) обязательного наличия запятой. Однако ослабление канонических правил неизбежно влечёт за собой возрастание числа возможных интерпретаций. При этом нельзя опознать ошибочный текст прежде, чем будет закончен анализ средствами канонической грамматики. Другой подход предлагает сначала использовать слабую грамматику, а затем подвергнуть обрабатываемое предложение фильтрации на основе строгих требований правильности. Но при этом наличие ошибки предполагается более вероятным, чем соблюдение норм грамматики.

Также отметим, что описанные методы позволяют автоматически обнаружить ошибку только тогда, когда не удаётся построить связный синтаксический граф для рассматриваемого предложения. Однако ошибки, при которых возможно получение формально приемлемой, но по сути неверной интерпретации, остаются невыявленными. При этом никаких сообщений об ошибках не поступает.

3.2. Система комплексного контроля качества текста ЛИНАР

3.2.1. Функции системы ЛИНАР; сценарии работы с системой

Построение автокорректоров сталкивается с рядом принципиальных и не решенных пока в полном объеме проблем: компактное хранение словарей, эффективные методы морфологического и синтаксического анализа и т.д. Тем не менее на очереди - создание систем, способных производить более сложное по сравнению с автокорректорами автоматическое или автоматизированное редактирование текстов на естественном языке. В идеале же необходима система, выполняющая функции научного редактора - человека, осуществляющего литературную и научную правку научно-технических текстов. Такое направление развития представляет разрабатывавшаяся в 1986-1990 гг. на кафедре алгоритмических языков факультета ВМК МГУ система ЛИНАР (ЛИтературно-НАучный Редактор) - интеллектуальная система комплексного контроля качества и редактирования русскоязычных текстов.


Рекомендуем почитать
Литература с Дмитрием Быковым

Назовите самые популярные переводные детские книги. Не сомневаемся, что в ваш список попадут повести о муми-троллях Туве Янссон, «Алиса в Стране чудес» Кэрролла, «Хроники Нарнии» Льюиса, эпопея «Властелин колец» Толкина, романы Дж.К. Роулинг о Гарри Поттере. Именно о них – ваших любимых (или нелюбимых) книгах – и пойдет речь в этом сборнике. Их читают не по программе, а для души. Поэтому рассуждать о них будет самый известный литературный критик, поэт и писатель, популяризатор литературы Дмитрий Быков. Его яркие, эмоциональные и невероятно интересные выступления в лектории «Прямая речь» давно привлекают школьников и родителей.


Жан Расин и другие

Книга рассказывает о жизни и сочинениях великого французского драматурга ХVП века Жана Расина. В ходе повествования с помощью подлинных документов эпохи воссоздаются богословские диспуты, дворцовые интриги, литературные битвы, домашние заботы. Действующими лицами этого рассказа становятся Людовик XIV и его вельможи, поэты и актрисы, философы и королевские фаворитки, монахини и отравительницы современники, предшественники и потомки. Все они помогают разгадывать тайну расиновской судьбы и расиновского театра и тем самым добавляют пищи для размышлений об одной из центральных проблем в культуре: взаимоотношениях религии, морали и искусства. Автор книги переводчик и публицист Юлия Александровна Гинзбург (1941 2010), известная читателю по переводам «Калигулы» Камю и «Мыслей» Паскаля, «Принцессы Клевской» г-жи де Лафайет и «Дамы с камелиями» А.


Сожжение книг. История уничтожения письменных знаний от античности до наших дней

На протяжении всей своей истории люди не только создавали книги, но и уничтожали их. Полная история уничтожения письменных знаний от Античности до наших дней – в глубоком исследовании британского литературоведа и библиотекаря Ричарда Овендена.


Старая русская азбука

«Старая русская азбука» – это не строгая научная монография по фонетике. Воспоминания, размышления, ответы на прочитанное и услышанное, заметки на полях, – соединённые по строгому плану под одной обложкой как мозаичное панно, повествующее о истории, философии, судьбе и семье во всём этом вихре событий, имён и понятий.В формате PDF A4 сохранен издательский макет.


Расшифрованный Достоевский. «Преступление и наказание», «Идиот», «Бесы», «Братья Карамазовы»

Книга известного литературоведа, доктора филологических наук Бориса Соколова раскрывает тайны четырех самых великих романов Федора Достоевского – «Преступление и наказание», «Идиот», «Бесы» и «Братья Карамазовы». По всем этим книгам не раз снимались художественные фильмы и сериалы, многие из которых вошли в сокровищницу мирового киноискусства, они с успехом инсценировались во многих театрах мира. Каково было истинное происхождение рода Достоевских? Каким был путь Достоевского к Богу и как это отразилось в его романах? Как личные душевные переживания писателя отразились в его произведениях? Кто был прототипами революционных «бесов»? Что роднит Николая Ставрогина с былинным богатырем? Каким образом повлиял на Достоевского скандально известный маркиз де Сад? Какая поэма послужила источником знаменитой легенды о «Великом инквизиторе»? Какой должна была быть судьба героев «Братьев Карамазовых» в так и ненаписанном Федором Михайловичем втором томе романа? На эти и другие вопросы о жизни и творчестве Достоевского читатель найдет ответы в этой книге.


Придворная словесность: институт литературы и конструкции абсолютизма в России середины XVIII века

Институт литературы в России начал складываться в царствование Елизаветы Петровны (1741–1761). Его становление было тесно связано с практиками придворного патронажа – расцвет словесности считался важным признаком процветающего монархического государства. Развивая работы литературоведов, изучавших связи русской словесности XVIII века и государственности, К. Осповат ставит теоретический вопрос о взаимодействии между поэтикой и политикой, между литературной формой, писательской деятельностью и абсолютистской моделью общества.