Прикладное программное обеспечение: системы автоматической обработки текстов - [6]

Шрифт
Интервал

В главе 4 мы рассмотрим проблемы информационного поиска подробнее.

2. Лингвистическое обеспечение систем автоматической обработки текстов

Один из главных путей развития функциональных возможностей прикладных АОТ-систем и повышения качества их работы - создание и внедрение более полных и точных моделей естественных языков, более совершенных алгоритмов анализа и синтеза текста. В данной главе мы рассмотрим некоторые проблемы построения, формализации и компьютерной реализации моделей естественного языка на примере русской морфологии (словоизменения).

2.1. Лингвистические банки данных

Под лингвистическими банками данных (ЛБД) понимаются представленные в электронной форме языковые источники (корпусы текстов) и лингвистические описания. Отметим, что в наше время, в ситуации, когда надежность работы систем оптического распознавания близка (на хороших по качеству печатных текстах) к 100%, в электронную форму легко переводимы и традиционные источники информации о языке. Поэтому можно считать, что в ЛБД можно перевести любые полиграфические источники: тексты на том или ином естественном языке, словари, справочники, книги по лингвистике. Спектр ЛБД достаточно широк: это как необработанные ("сырые") корпусы текстов, так и тексты с некоторыми добавлениями, например грамматическими характеристиками слов, стилистическими пометами (разговорное, специальное и т.п.), или описаниями синтаксической структуры предложений. Сюда также входят разнообразные компьютерные словари: частотные, грамматические, словоформ, тезаурусы, словари словосочетаний и моделей управления, своды грамматических правил и т.п.

Различаться может и назначение лингвистических банков данных. Часть ЛБД предназначена для автоматизации деятельности лингвистов и разработчиков прикладных систем, часть - для непосредственного использования в системах обработки текста и речи: автокорректорах, системах распознавания текста и речи, информационно-поисковых системах.

Отметим, что в качестве пользователя ЛБД может выступать как человек (исследователь-лингвист или разработчик программного продукта), так и тот или иной модуль компьютерной системы обработки текстов. В двух этих случаях требования к организации лингвистических банков данных и к степени эксплицитности, строгости и формальности представленных в них описаний естественного языка разнятся весьма существенно.

Ситуация здесь несимметричная. Пользователь-человек часто может извлечь интересующую его информацию из ЛБД, встроенного в компьютерную систему обработки текстов. Однако компьютерная система обычно не может извлечь нужную для ее работы информацию непосредственно из ЛБД, ориентированного на человека. Особенно остра эта проблема для флективных языков, в частности, для русского языка.

Так, во всех распространенных русскоязычных словарях (толковых, орфографических, словарях синонимов и антонимов и др.) входом в словарную статью служит так называемая начальная форма слова. Поскольку словари ориентированы на пользователя-человека, по умолчанию предполагается, что он знает правила русского словоизменения (склонения и спряжения) и может распознать в тексте любую форму интересующего его слова, т.е., восстановив начальную форму, добраться до соответствующей словарной статьи. Предполагается также, что он может решить и обратную задачу - употребить слово из словаря в требуемой грамматической форме.

При использовании словарей в составе компьютерных систем обработки текстов ситуация иная. Самоочевидные для человека грамматические свойства слова, определяющие особенности его склонения/спряжения, должны быть тем или иным способом явно представлены в компьютерном словаре и в программах морфологического анализа и синтеза, позволяющих определять грамматические признаки словоформ текста и генерировать слова в требуемой форме.

Как распределить знания о чрезвычайно сложных и запутанных правилах русского словоизменения между словарями и программными компонентами?

Здесь возможны два решения:


в словаре описываются только словоизменительные признаки слов (тип и частные особенности склонения/спряжения), а работа по анализу и синтезу словоформ “поручается” программам морфологического компонента компьютерных систем;

в словаре приводятся все формы слов, каждой из которых сопоставлены все необходимые признаки (в частности, грамматические: число, падеж, лицо, время, наклонение и др.).В целом, задача построения и сопровождения лингвистически полного, обоснованного и покрывающего представительное подмножество выбранного естественного языка ЛБД, особенно в случае пользователя-программы, очень сложна. Ее решение требует привлечения квалифицированных специалистов в области лингвистики и инженерии знаний, создания необходимой инфраструктуры, серьезной финансовой и организационной поддержки (часто - на государственном уровне).

2.2. Библиотека программ "Русская морфология"

2.2.1. Словарь Зализняка

Одним из широкодоступных (и активно используемых) русскоязычных ЛБД является электронный вариант фундаментального «Грамматического словаря русского языка» А.А.Зализняка. Текст словаря был перенесен на машинные носители в начале 80-х годов. С тех пор словари всех русскоязычных коммерческих автокорректоров (в том числе, ОРФО, Word), словари практически всех экспериментальных и коммерческих систем машинного перевода и других систем автоматической обработки текстов строятся на основе словаря Зализняка.


Рекомендуем почитать
Транснациональное в русской культуре. Studia Russica Helsingiensia et Tartuensia XV

В центре внимания научных работ, которые составили настоящий сборник, находится актуальная проблематика транснациональных процессов в русской литературе и культуре. Авторы рассматривают международные литературные и культурные контакты, а также роль посредников в развитии русской культуры. В их число входят И. Крылов, Л. Толстой, А. Ахматова, М. Цветаева, О. Мандельштам и другие, не столь известные писатели. Хронологические рамки исследований охватывают период с первой четверти XIX до середины ХХ века.


Жан Расин и другие

Книга рассказывает о жизни и сочинениях великого французского драматурга ХVП века Жана Расина. В ходе повествования с помощью подлинных документов эпохи воссоздаются богословские диспуты, дворцовые интриги, литературные битвы, домашние заботы. Действующими лицами этого рассказа становятся Людовик XIV и его вельможи, поэты и актрисы, философы и королевские фаворитки, монахини и отравительницы современники, предшественники и потомки. Все они помогают разгадывать тайну расиновской судьбы и расиновского театра и тем самым добавляют пищи для размышлений об одной из центральных проблем в культуре: взаимоотношениях религии, морали и искусства. Автор книги переводчик и публицист Юлия Александровна Гинзбург (1941 2010), известная читателю по переводам «Калигулы» Камю и «Мыслей» Паскаля, «Принцессы Клевской» г-жи де Лафайет и «Дамы с камелиями» А.


Сожжение книг. История уничтожения письменных знаний от античности до наших дней

На протяжении всей своей истории люди не только создавали книги, но и уничтожали их. Полная история уничтожения письменных знаний от Античности до наших дней – в глубоком исследовании британского литературоведа и библиотекаря Ричарда Овендена.


Старая русская азбука

«Старая русская азбука» – это не строгая научная монография по фонетике. Воспоминания, размышления, ответы на прочитанное и услышанное, заметки на полях, – соединённые по строгому плану под одной обложкой как мозаичное панно, повествующее о истории, философии, судьбе и семье во всём этом вихре событий, имён и понятий.В формате PDF A4 сохранен издательский макет.


Расшифрованный Достоевский. «Преступление и наказание», «Идиот», «Бесы», «Братья Карамазовы»

Книга известного литературоведа, доктора филологических наук Бориса Соколова раскрывает тайны четырех самых великих романов Федора Достоевского – «Преступление и наказание», «Идиот», «Бесы» и «Братья Карамазовы». По всем этим книгам не раз снимались художественные фильмы и сериалы, многие из которых вошли в сокровищницу мирового киноискусства, они с успехом инсценировались во многих театрах мира. Каково было истинное происхождение рода Достоевских? Каким был путь Достоевского к Богу и как это отразилось в его романах? Как личные душевные переживания писателя отразились в его произведениях? Кто был прототипами революционных «бесов»? Что роднит Николая Ставрогина с былинным богатырем? Каким образом повлиял на Достоевского скандально известный маркиз де Сад? Какая поэма послужила источником знаменитой легенды о «Великом инквизиторе»? Какой должна была быть судьба героев «Братьев Карамазовых» в так и ненаписанном Федором Михайловичем втором томе романа? На эти и другие вопросы о жизни и творчестве Достоевского читатель найдет ответы в этой книге.


Придворная словесность: институт литературы и конструкции абсолютизма в России середины XVIII века

Институт литературы в России начал складываться в царствование Елизаветы Петровны (1741–1761). Его становление было тесно связано с практиками придворного патронажа – расцвет словесности считался важным признаком процветающего монархического государства. Развивая работы литературоведов, изучавших связи русской словесности XVIII века и государственности, К. Осповат ставит теоретический вопрос о взаимодействии между поэтикой и политикой, между литературной формой, писательской деятельностью и абсолютистской моделью общества.