Прикладное программное обеспечение: системы автоматической обработки текстов - [5]
В отличие от машинного перевода разработка систем редактирования текстов еще на заре своего развития, в 60-е годы, считалась коммерчески перспективной прикладной областью. В настоящее время рынок перенасыщен подобными системами; среди их создателей существует жесткая конкуренция, поэтому при введении одним из поставщиков каких-либо новых возможностей (например, проверка стиля) остальные вынуждены вводить в свои системы нечто подобное. Одним из первых массовых нововведений стало включение в состав текстового редактора программ проверки правописания и внесения необходимых исправлений - автокорректоров. Чтобы придать своему продукту новые коммерчески перспективные свойства, создатели вынуждены все больше использовать лингвистические знания, применять методы морфологического и синтаксического анализа. На очереди - создание систем, выполняющих функции научного редактора, т.е. осуществляющих литературную и научную правку текстов, способных производить сложное автоматизированное редактирование текстов на естественном языке.
Проверка текста в таких системах может вестись в режиме "off-line" - когда формируется протокол замечаний по тексту, либо в режиме "on-line" - когда исправление ошибок ведется по мере их обнаружения (возможно, после получения соответствующего подтверждения от пользователя). При обнаружении ошибки система может предложить вариант ее исправления (при наличии нескольких вариантов - их упорядоченный список). Замечания по тексту также могут носить различный характер. Они могут быть локальными (указывается фрагмент текста с ошибкой) и глобальными (выдается диагностическое сообщение, касающееся всего текста, например: "данный текст труден для восприятия"). В третьей главе мы рассмотрим подробнее проблемы создания систем подобного рода.
1.6. Поиск информации
Не вызывает сомнений необходимость автоматизации поиска заданных текстовых фрагментов в текстах на естественном языке.
Однако часто даже при поиске информации другого рода (например, аудио- и видео-) работа на самом деле ведется с описаниями на естественном языке (например, для организации поиска фотографий необходимо снабдить каждую из них набором словесных характеристик типа "портрет, профиль, полный рост, женщина", "пейзаж, лес, осень" и т.п.).
В последних разработках классических систем поиска текста основное внимание уделяется дополнению их разнообразными средствами текстовой обработки, что приводит к расширению возможностей и облегчению работы для пользователя-непрофессионала.
Применение компьютеров не только ускоряет создание и обработку документов, но и чрезвычайно стимулирует рост их количества и объема. Очень многие пользователи регулярно сталкиваются с необходимостью быстро просматривать большой объем документов и выбирать из них действительно нужные. Эта задача возникает при работе с текстовыми базами данных, с электронной почтой, при поиске в Интернете. Сократить количество просматриваемых документов могут помочь системы категоризации. Большой поток входных документов эти системы распределяют по небольшому количеству классов. При категоризации могут учитываться как чисто внешние показатели документов (объем, расширение имени соответствующего файла и т.п.), так и их содержательные характеристики (название, фамилия автора, ключевые слова), которые могут позволить отнести текст к той или иной тематической рубрике. В последнем случае мы имеем дело с рубрицированием текстов.
Часто бывает, что в крупных организациях, особенно государственных, правила делопроизводства предписывают сопровождать каждый документ кратким описанием или набором ключевых слов. Во всех указанных случаях была бы весьма полезна возможность автоматически составлять сжатые описания содержания документов - рефераты.
К сожалению, автоматические методы не настолько совершенны, чтобы создать полноценный реферат путем генерации предложений текста. Однако уже сейчас возможно автоматическое реферирование - составление более или менее информативных и связных рефератов заданного объема (квазирефератов) - путем выбора информативных предложений из исходного текста, а также выделение достаточно представительного списка ключевых слов.
В качестве ключевых слов система может выбирать слова, наиболее часто встречающиеся в тексте (и являющиеся при этом информативными, т.е. не предлоги, союзы и проч.), либо использовать для отбора какие-либо синтактико-семантические признаки (из фрагмента: "Определение. Интегралом ... называется ..." можно заключить, что интеграл - ключевое слово).
При реферировании из текста отбираются предложения, в наибольшей степени характеризующие его содержание. Таковыми могут считаться, например, предложения, содержащие ключевые слова (чем больше, тем лучше), либо отобранные по некоторым особым признакам. Размер реферата (коэффициент сжатия) или количество ключевых слов задается пользователем. Результатом работы такой системы может являться некоторый новый текстовый документ (реферат или набор ключевых слов) или же данный документ, в котором ключевые слова или наиболее информативные предложения выделены по тексту.
В сборник «Испытание реализмом» вошли материалы научно-теоретической конференции, посвященной творчеству известного русского писателя Юрия Михайловича Полякова. Симпозиум состоялся в его альма-матер, Московском государственном областном университете, накануне 60-летнего юбилея писателя – 10 ноября 2014 года. С докладами выступили видные филологи, литераторы, культурологи, переводчики, общественные деятели. Издание снабжено наиболее полным на сегодняшний день библиографическим указателем, охватывающим четыре десятилетия (1974 – 2014) и дающим представление о разнообразии и масштабах творческий деятельности автора.
Если вы думаете, будто английский язык – это предмет, и читать о нём можно только в учебниках, вы замечательно заблуждаетесь. Английский язык, как и любой язык, есть кладезь ума и глупости целых поколений. Поразмышлять об этом и предлагает 3-я тетрадь книги «Неожиданный английский», посвящённая вариантам и стилям английского языка, типичным ошибкам, учебным пособиям, языковым штампам и забавным, а порой и парадоксальным наблюдениям.
В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.
В стихах правила проще запомнить, плюс некоторые анекдотичные случаи, встретившиеся в жизни, продолжу писать, если будет интересно читателям.
Издание второе, исправленное и дополненное. В книге рассматриваются различные аспекты английской грамматики уровня Intermediate и Upper-intermediate.Особое внимание уделено тонкостям употребления времен, различий между ними. Также затрагиваются такие вызывающие сложности темы, как употребление предлогов, артиклей, модальных глаголов, особенно в прошлом, пассивный залог и причастные формы. Каждая глава содержит теоретическую и практическую части.
Существует «русская идея» Запада, еще ранее возникла «европейская идея» России, сформулированная и воплощенная Петром I. В основе взаимного интереса лежали европейская мечта России и русская мечта Европы, претворяемые в идеи и в практические шаги. Достаточно вспомнить переводческий проект Петра I, сопровождавший его реформы, или переводческий проект Запада последних десятилетий XIX столетия, когда первые переводы великого русского романа на западноевропейские языки превратили Россию в законодательницу моды в области культуры.