Прикладное программное обеспечение: системы автоматической обработки текстов - [7]
Полиграфический вариант словаря Зализняка состоит из двух частей: "Грамматические сведения" (около 120 страниц) и собственно "Словарь" (около 740 страниц). В первой части представлена разработанная автором словаря с необычайной тщательностью оригинальная модель русского словоизменения (склонения и спряжения). Во второй - приведено около 100 тысяч слов, которым приписаны грамматические индексы, характеризующие тип их словоизменения и схему ударения. Слова упорядочены по концам, что естественно и удобно для грамматического словаря, поскольку слова со сходным грамматическим поведением (одинаковыми суффиксами и окончаниями) располагаются компактными группами.
Словарная статья в словаре Зализняка состоит из заголовка (начальная форма слова) и словарной (грамматической) информации. Для некоторых слов даются также дополнительные сведения, необходимые для различения вариантов. Статьи с заголовками лев, стричь и прихожая выглядят так:
лев мо 1*b (животное)
лев м 1a (денежная единица)
стричь нсв 8b (-г-)
прихожая ж (п 4a)
По первому элементу словарной информации определяется грамматический класс (спрягаемое слово, слово субстантивного, адъективного или местоименного склонения - эти термины будут разъяснены в следующем разделе), для слов субстантивного склонения также одушевленность и род, для спрягаемых слов - вид. Если, например, этот элемент "п", то слово относится к словам адъективного склонения; "ж" - к словам субстантивного склонения, женского рода, неодушевленным; "мо" - к словам субстантивного склонения, мужского рода, одушевленным; "нсв" - к спрягаемым словам (глаголам) несовершенного вида.
Если второй элемент - не цифра, то это означает, что слово изменяется по необычной модели (существительное прихожая изменяется по модели слов адъективного склонения). Остальные элементы словарной статьи либо уточняют тип склонения/спряжения, либо свидетельствуют о наличии в слове чередований (символ *), об отсутствии у слова некоторых форм или о других частных особенностях словоизменения. Буквенный индекс после цифры (или после символа *) характеризует схему ударения во всех формах описываемого слова; эта информация полезна при автоматизированной генерации фонетического словаря словоформ русского языка.
Отметим, что исходный (полиграфический) вариант словаря Зализняка был ориентирован на пользователя-человека. Основной сценарий использования словаря предусматривал возможность просклонять/проспрягать любое слово из "Словаря" на основе его грамматического описания и правил, приведенных в "Грамматических сведениях". Эти операции, вообще говоря, требовали выполнения некоторых трудноформализуемых действий, определенной языковой компетенции: поиск уместных грамматических таблиц, определение типа чередования, рассуждения по аналогии. Поэтому непосредственное использование словаря Зализняка (даже в электронном виде) в составе компьютерных систем обработки текста/речи затруднительно.
Разработчики компьютерных словарей, базирующихся на словаре Зализняка, выбирают обычно один из трех путей:
– генерация на основе словаря Зализняка словаря русских словоформ;
– использование электронного "Словаря" в исходной форме и разработка (достаточно сложных) алгоритмов, моделирующих работу с "Грамматическими сведениями";
– создание на основе словаря Зализняка формальной модели словоизменения и необходимое переструктурирование словарной части (явное введение в словарную статью некоторой информации из "Грамматических сведений"), позволяющее существенно упростить алгоритмы.
После подобных преобразований компьютерный словарь может использоваться для решения двух практически важных задач:
задача морфологического анализа - определения начальной формы слова по произвольной словоформе (и, возможно, грамматических признаков словоформы);
задача синтеза - построения всех форм (или указанной формы) слова по начальной форме.Одна из первых формальных моделей русского словоизменения на базе словаря Зализняка (третий из указанных выше путей) была разработана еще в середине 80-х годов на кафедре алгоритмических языков факультета ВМК МГУ под руководством М.Г.Мальковского. Модель была реализована на лиспоподобном языке программирования Плэнер (ЭВМ БЭСМ-6, а позже - МВК «Эльбрус-2» и IBM-совместимые ПК). При этом широко использовались динамические структуры, мощные средства обработки списков и сопоставления образца с выражением. В плэнерских структурах данных явно указывались все морфологические свойства для каждого слова, включая чередования в основе слова. Поэтому плэнерское представление достаточно легко воспринималось человеком, явно отражало морфологические особенности описываемых в компьютерном словаре слов.
Однако язык Плэнер является интерпретируемым, а следовательно, довольно медленно работающим, что затрудняет его применение в системах, к которым предъявляются высокие требования по быстродействию. Обработка сложной структуры списков требует существенных затрат машинного времени, даже при реализации алгоритма их обработки на компилируемых языках, ориентированных на написание эффективных программ (С, С++). Поэтому было принято решение о переходе к другой структуре словаря и соответствующей модификации алгоритмов анализа и синтеза.
Эта книга — универсальный ключ к пониманию всех времен английского языка. Автор предлагает новый способ изучения и преподавания английской грамматики. Уникальная авторская методика состоит из детального разбора каждого времени в отдельности и объяснения их взаимосвязи друг с другом. Данный метод даст вам удобную шпаргалку по английским временам и поможет исключить ошибки при их использовании. Книга предназначена для всех, кто изучает английский язык, а также может быть использована как методическое пособие для преподавателей английского языка.
Виктор Топоров (1946–2013) был одним из самых выдающихся критиков и переводчиков своего времени. В настоящем издании собраны его статьи, посвященные литературе Западной Европы и США. Готфрид Бенн, Уистен Хью Оден, Роберт Фрост, Генри Миллер, Грэм Грин, Макс Фриш, Сильвия Платт, Том Вулф и многие, многие другие – эту книгу можно рассматривать как историю западной литературы XX века. Историю, в которой глубина взгляда и широта эрудиции органично сочетаются с неподражаемым остроумием автора.
Если вы думаете, будто английский язык – это предмет, и читать о нём можно только в учебниках, вы замечательно заблуждаетесь. Английский язык, как и любой язык, есть кладезь ума и глупости целых поколений. Поразмышлять об этом и предлагает 3-я тетрадь книги «Неожиданный английский», посвящённая вариантам и стилям английского языка, типичным ошибкам, учебным пособиям, языковым штампам и забавным, а порой и парадоксальным наблюдениям.
В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.
В стихах правила проще запомнить, плюс некоторые анекдотичные случаи, встретившиеся в жизни, продолжу писать, если будет интересно читателям.
Издание второе, исправленное и дополненное. В книге рассматриваются различные аспекты английской грамматики уровня Intermediate и Upper-intermediate.Особое внимание уделено тонкостям употребления времен, различий между ними. Также затрагиваются такие вызывающие сложности темы, как употребление предлогов, артиклей, модальных глаголов, особенно в прошлом, пассивный залог и причастные формы. Каждая глава содержит теоретическую и практическую части.