Прикладное программное обеспечение: системы автоматической обработки текстов - [6]

Шрифт
Интервал

В главе 4 мы рассмотрим проблемы информационного поиска подробнее.

2. Лингвистическое обеспечение систем автоматической обработки текстов

Один из главных путей развития функциональных возможностей прикладных АОТ-систем и повышения качества их работы - создание и внедрение более полных и точных моделей естественных языков, более совершенных алгоритмов анализа и синтеза текста. В данной главе мы рассмотрим некоторые проблемы построения, формализации и компьютерной реализации моделей естественного языка на примере русской морфологии (словоизменения).

2.1. Лингвистические банки данных

Под лингвистическими банками данных (ЛБД) понимаются представленные в электронной форме языковые источники (корпусы текстов) и лингвистические описания. Отметим, что в наше время, в ситуации, когда надежность работы систем оптического распознавания близка (на хороших по качеству печатных текстах) к 100%, в электронную форму легко переводимы и традиционные источники информации о языке. Поэтому можно считать, что в ЛБД можно перевести любые полиграфические источники: тексты на том или ином естественном языке, словари, справочники, книги по лингвистике. Спектр ЛБД достаточно широк: это как необработанные ("сырые") корпусы текстов, так и тексты с некоторыми добавлениями, например грамматическими характеристиками слов, стилистическими пометами (разговорное, специальное и т.п.), или описаниями синтаксической структуры предложений. Сюда также входят разнообразные компьютерные словари: частотные, грамматические, словоформ, тезаурусы, словари словосочетаний и моделей управления, своды грамматических правил и т.п.

Различаться может и назначение лингвистических банков данных. Часть ЛБД предназначена для автоматизации деятельности лингвистов и разработчиков прикладных систем, часть - для непосредственного использования в системах обработки текста и речи: автокорректорах, системах распознавания текста и речи, информационно-поисковых системах.

Отметим, что в качестве пользователя ЛБД может выступать как человек (исследователь-лингвист или разработчик программного продукта), так и тот или иной модуль компьютерной системы обработки текстов. В двух этих случаях требования к организации лингвистических банков данных и к степени эксплицитности, строгости и формальности представленных в них описаний естественного языка разнятся весьма существенно.

Ситуация здесь несимметричная. Пользователь-человек часто может извлечь интересующую его информацию из ЛБД, встроенного в компьютерную систему обработки текстов. Однако компьютерная система обычно не может извлечь нужную для ее работы информацию непосредственно из ЛБД, ориентированного на человека. Особенно остра эта проблема для флективных языков, в частности, для русского языка.

Так, во всех распространенных русскоязычных словарях (толковых, орфографических, словарях синонимов и антонимов и др.) входом в словарную статью служит так называемая начальная форма слова. Поскольку словари ориентированы на пользователя-человека, по умолчанию предполагается, что он знает правила русского словоизменения (склонения и спряжения) и может распознать в тексте любую форму интересующего его слова, т.е., восстановив начальную форму, добраться до соответствующей словарной статьи. Предполагается также, что он может решить и обратную задачу - употребить слово из словаря в требуемой грамматической форме.

При использовании словарей в составе компьютерных систем обработки текстов ситуация иная. Самоочевидные для человека грамматические свойства слова, определяющие особенности его склонения/спряжения, должны быть тем или иным способом явно представлены в компьютерном словаре и в программах морфологического анализа и синтеза, позволяющих определять грамматические признаки словоформ текста и генерировать слова в требуемой форме.

Как распределить знания о чрезвычайно сложных и запутанных правилах русского словоизменения между словарями и программными компонентами?

Здесь возможны два решения:


в словаре описываются только словоизменительные признаки слов (тип и частные особенности склонения/спряжения), а работа по анализу и синтезу словоформ “поручается” программам морфологического компонента компьютерных систем;

в словаре приводятся все формы слов, каждой из которых сопоставлены все необходимые признаки (в частности, грамматические: число, падеж, лицо, время, наклонение и др.).В целом, задача построения и сопровождения лингвистически полного, обоснованного и покрывающего представительное подмножество выбранного естественного языка ЛБД, особенно в случае пользователя-программы, очень сложна. Ее решение требует привлечения квалифицированных специалистов в области лингвистики и инженерии знаний, создания необходимой инфраструктуры, серьезной финансовой и организационной поддержки (часто - на государственном уровне).

2.2. Библиотека программ "Русская морфология"

2.2.1. Словарь Зализняка

Одним из широкодоступных (и активно используемых) русскоязычных ЛБД является электронный вариант фундаментального «Грамматического словаря русского языка» А.А.Зализняка. Текст словаря был перенесен на машинные носители в начале 80-х годов. С тех пор словари всех русскоязычных коммерческих автокорректоров (в том числе, ОРФО, Word), словари практически всех экспериментальных и коммерческих систем машинного перевода и других систем автоматической обработки текстов строятся на основе словаря Зализняка.


Рекомендуем почитать
Практикум по написанию рецензии на итоговом экзамене по русскому языку

Предлагаемое пособие имеет практическую направленность и нацелено на то, чтобы помочь учащимся подготовиться к выполнению самых сложных заданий на Едином государственном экзамене по русскому языку (часть «С»), т.е. к написанию сочинения-рассуждения в жанре, близком к рецензии или эссе. В пособии даны речевые образцы и методические шаги по выстраиванию сочинения-рассуждения в жанре рецензии, указаны типичные, часто встречающиеся на ЕГЭ грамматические и речевые ошибки, предложены советы, как начинать и завершать письменную работу, приведены основные параметры стилей речи и образцы рецензий по каждому из них.


Достоевский и предшественники. Подлинное и мнимое в пространстве культуры

В монографии, приуроченной к 200-летию со дня рождения Ф.М. Достоевского, обсуждается важнейшая эстетическая и художественная проблема адекватного воплощения биографий великих писателей на киноэкране, раскрываются художественные смыслы и творческие стратегии, правда и вымысел экранных образов. Доказывается разница в подходах к экранизациям литературных произведений и к биографическому кинематографу, в основе которого – жизнеописания исторических лиц, то есть реальный, а не вымышленный материал. В работе над кинобиографией проблема режиссерского мастерства видится не только как эстетическая, но и как этическая проблема.


Литература с Дмитрием Быковым

Назовите самые популярные переводные детские книги. Не сомневаемся, что в ваш список попадут повести о муми-троллях Туве Янссон, «Алиса в Стране чудес» Кэрролла, «Хроники Нарнии» Льюиса, эпопея «Властелин колец» Толкина, романы Дж.К. Роулинг о Гарри Поттере. Именно о них – ваших любимых (или нелюбимых) книгах – и пойдет речь в этом сборнике. Их читают не по программе, а для души. Поэтому рассуждать о них будет самый известный литературный критик, поэт и писатель, популяризатор литературы Дмитрий Быков. Его яркие, эмоциональные и невероятно интересные выступления в лектории «Прямая речь» давно привлекают школьников и родителей.


Транснациональное в русской культуре. Studia Russica Helsingiensia et Tartuensia XV

В центре внимания научных работ, которые составили настоящий сборник, находится актуальная проблематика транснациональных процессов в русской литературе и культуре. Авторы рассматривают международные литературные и культурные контакты, а также роль посредников в развитии русской культуры. В их число входят И. Крылов, Л. Толстой, А. Ахматова, М. Цветаева, О. Мандельштам и другие, не столь известные писатели. Хронологические рамки исследований охватывают период с первой четверти XIX до середины ХХ века.


Русский Монпарнас. Парижская проза 1920–1930-х годов в контексте транснационального модернизма

Эта книга – о роли писателей русского Монпарнаса в формировании эстетики, стиля и кода транснационального модернизма 1920–1930-х годов. Монпарнас рассматривается здесь не только как знаковый локус французской столицы, но, в первую очередь, как метафора «постапокалиптической» европейской литературы, возникшей из опыта Первой мировой войны, революционных потрясений и массовых миграций. Творчество молодых авторов русской диаспоры, как и западных писателей «потерянного поколения», стало откликом на эстетический, философский и экзистенциальный кризис, ощущение охватившей западную цивилизацию энтропии, распространение тоталитарных дискурсов, «кинематографизацию» массовой культуры, новые социальные практики современного мегаполиса.


Все английские времена в одной простой схеме

Эта книга — универсальный ключ к пониманию всех времен английского языка. Автор предлагает новый способ изучения и преподавания английской грамматики. Уникальная авторская методика состоит из детального разбора каждого времени в отдельности и объяснения их взаимосвязи друг с другом. Данный метод даст вам удобную шпаргалку по английским временам и поможет исключить ошибки при их использовании. Книга предназначена для всех, кто изучает английский язык, а также может быть использована как методическое пособие для преподавателей английского языка.