Прикладное программное обеспечение: системы автоматической обработки текстов

Прикладное программное обеспечение: системы автоматической обработки текстов

Учебное пособие знакомит читателей с одной из наиболее интересных и перспективных задач прикладного программирования - задачей автоматической обработки тестов на естественном языке. Рассмитриваются рациональные сферы применения систме автоматической обработки текстов , проблемы их линвистиеского обеспечения.

Для студентов 2 курса факультета ВМК МГУ в поддержку обязательного лекционного курса "Прикладное программное обеспчение".

Авторы пособия благодарят Владимира Геннадиевича Абрамова и Валерия Ивановича Родина за ценные советы и замечания.

Рецензенты: проф. Р.Л. Смелянский, доц. Л.С. Корухова.

Печатается по решению Редакционно-издательского совета факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова.

Жанры: Языкознание, Интернет
Серии: -
Всего страниц: 22
ISBN: 5-89407-086-4
Год издания: 2000
Формат: Полный

Прикладное программное обеспечение: системы автоматической обработки текстов читать онлайн бесплатно

Шрифт
Интервал

1. Сферы применения систем автоматической обработки текстов

Системы автоматической обработки текста (т.е. переработки одного вида текста в памяти ЭВМ в другой) по выполняемым функциям (входной и выходной информации) можно классифицировать следующим образом:


Язык входного текста


Язык выходного текста


1


Естественный-1


Естественный-2


2


Искусственный


Естественный


3


Естественный


Искусственный / Естественный


4


Естественный


Естественный + { Искусственный}


К системам первого типа относятся программы машинного перевода, получающие текст на некотором естественном языке и перерабатывающие его в текст на другом естественном языке. Второй тип - системы генерации (синтеза) текстов по некоторому формальному описанию. Системы третьего типа, наоборот, перерабатывают текст на естественном языке в текст на искусственном (индексирование, извлечение смыслового содержания) или в другой текст на естественном языке (реферирование). К последнему классу отнесем программы, занимающиеся проверкой текста, написанного на естественном языке. Они в результате своей работы либо исправляют входной текст автоматически, либо формируют некоторый протокол замечаний.

Естественный язык - сложная, многоплановая система, с множеством правил, внутренних связей, имеющая отношение ко всем аспектам деятельности человека. Точность и правильность работы программ определяется глубиной анализа. Достаточно глубокий анализ пока достигается только для определенных узких предметных областей (из-за специфичности подъязыка такой области: в каждой области свои термины, специфические семантические отношения и т.п.).

Для создания систем, работающих со всем естественным языком без потери глубины анализа, в настоящий момент не хватает либо технических возможностей (быстродействия, памяти), либо теоретической базы (например, пока нет даже единой схемы достаточно полного, глубокого и непротиворечивого описания семантики естественного языка). Однако в коммерческих системах, ввиду того, что предназначаются они для большого количества пользователей, разных предметных областей, принята концепция поверхностного анализа, к тому же и производится такой анализ значительно быстрее. Дальнейшее продвижение вперед, использование естественного языка в практических областях невозможно без оснащения этих систем обширными и глубокими (с точки зрения охвата различных явлений языка) описаниями и моделями, созданными лингвистами-профессионалами.

Эта тенденция прогнозируется многими исследователями и прослеживается на примере развития АОТ-систем, уже в наши дни представляющих коммерческий интерес и использующихся при решении следующих прикладных задач:

1. Machine Translation and Translation Aids - машинный перевод;

2. Text Generation - генерация текста;

3. Localization and Internationalization - локализация и интернационализация;

4. Controlled Language - работа на ограниченном языке;

5. Word Processing and Spelling Correction - создание текстовых документов (ввод, редактирование, исправление ошибок)

6. Information Retrieval - информационный поиск и связанные с ним задачи.

Отметим, что это деление несколько условное, и в реальных системах часто встречается объединение функций. Так, для машинного перевода требуется генерация текста, а при исправлении ошибок приходится заниматься поиском вариантов словоформы и т.д.

1.1. Машинный перевод

Исторически машинный перевод является первой попыткой использования компьютеров для решения невычислительных задач (знаменитый Джорджтаунский эксперимент в США в 1954 г.; работы по машинному переводу в СССР, начавшиеся в 1954 г.). Развитие электронной техники, рост объема памяти и производительности компьютеров создавали иллюзию быстрого решения этой задачи. Идея захватила воображение ученых и администраторов. Практическая цель была простой: загрузить в память компьютера максимально возможный словарь и с его помощью из иноязычных текстов получать текст на родном языке в удобочитаемом виде. Однако первоначальная эйфория по поводу того, что столь трудоемкую работу можно поручить ЭВМ, сменилась разочарованием в связи с абсолютной непригодностью получаемых текстов. Приведем в качестве примера результаты работы одной из современных коммерческих систем перевода. Предложим ей перевести народное английское стихотворение, известное нам в переводе "Робин-Бобин" (текст этот очень простой, московские дети изучают его в начальной школе):

Robin, Robin, what a man!
He eats as much as no one can.
He ate a lot of fish, he ate a lot of meat.
He ate a lot of ice-cream and a sweet.
He ate a lot of porridge and ten eggs
And all the cookies Mother had.
He drank a lot of juice, he ate a cake
Then said: "I have a stomach-ache"
Малиновка, Малиновка, какой человек!
Он ест насколько никто не может.
Он съел много рыб, он съел много мяс.
Он съел много ледяных-сливки и сладкий.
Он съел много каша и десять яйцо
И вся Мать повары имела.
Он пил много соков, он съел торт
Затем сказал: "У меня есть желудок- боль"

Сравним с художественным переводом К.Чуковского:

Робин Бобин Барабек
Скушал сорок человек.
И корову, и быка,
И кривого мясника,
И телегу, и дугу,

Рекомендуем почитать
Виноград. Секреты сверхурожая

Многие дачники мечтают получать богатый урожай винограда на своем участке. Для тех, кто хочет увеличить урожайность этой южной культуры, — наша книга.С ее помощью вы научитесь выбирать посадочный материал и разбивать виноградник, узнаете об особых требованиях к освещению и поливу. Агротехника культуры описана максимально подробно и пошагово. Отдельная глава посвящена уходу за кустом — способам формовки, обрезки, пасынкования, прищипки, обломки и даже пересадки взрослых кустов, прививке и размножению винограда.


За того парня…

Как дрались с немцами во время Великой Отечечественной войны наши деды и прадеды, как они отстояли нашу Родину. В книге сделана попытка рассказать правду о первый днях и неделелях ВОВ.


Великан

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Шутка

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Испытание реализмом

В сборник «Испытание реализмом» вошли материалы научно-теоретической конференции, посвященной творчеству известного русского писателя Юрия Михайловича Полякова. Симпозиум состоялся в его альма-матер, Московском государственном областном университете, накануне 60-летнего юбилея писателя – 10 ноября 2014 года. С докладами выступили видные филологи, литераторы, культурологи, переводчики, общественные деятели. Издание снабжено наиболее полным на сегодняшний день библиографическим указателем, охватывающим четыре десятилетия (1974 – 2014) и дающим представление о разнообразии и масштабах творческий деятельности автора.


Неожиданный английский. Размышления репетитора – Тетрадь III

Если вы думаете, будто английский язык – это предмет, и читать о нём можно только в учебниках, вы замечательно заблуждаетесь. Английский язык, как и любой язык, есть кладезь ума и глупости целых поколений. Поразмышлять об этом и предлагает 3-я тетрадь книги «Неожиданный английский», посвящённая вариантам и стилям английского языка, типичным ошибкам, учебным пособиям, языковым штампам и забавным, а порой и парадоксальным наблюдениям.


К вопросу о генетической основе типов ассимилятивно-диссимилятивного яканья

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Английский: правила и особенности в стихах

В стихах правила проще запомнить, плюс некоторые анекдотичные случаи, встретившиеся в жизни, продолжу писать, если будет интересно читателям.


Английский для умных

Издание второе, исправленное и дополненное. В книге рассматриваются различные аспекты английской грамматики уровня Intermediate и Upper-intermediate.Особое внимание уделено тонкостям употребления времен, различий между ними. Также затрагиваются такие вызывающие сложности темы, как употребление предлогов, артиклей, модальных глаголов, особенно в прошлом, пассивный залог и причастные формы. Каждая глава содержит теоретическую и практическую части.


«Дар особенный»: художественный перевод в истории русской культуры

Существует «русская идея» Запада, еще ранее возникла «европейская идея» России, сформулированная и воплощенная Петром I. В основе взаимного интереса лежали европейская мечта России и русская мечта Европы, претворяемые в идеи и в практические шаги. Достаточно вспомнить переводческий проект Петра I, сопровождавший его реформы, или переводческий проект Запада последних десятилетий XIX столетия, когда первые переводы великого русского романа на западноевропейские языки превратили Россию в законодательницу моды в области культуры.