Компьютерра PDA N161 (25.02.2012-02.03.2012) - [6]

Шрифт
Интервал

Выход в рамках СМ для подобных ситуаций найден лишь паллиативный: работая с языками / темами низкого покрытия в качестве посредника используется английский язык. То есть сперва делается перевод с русского на английский, а затем уже с английского на, скажем, румынский, или тайский. В результате получается очень заметное снижение качества перевода.

Самое печальное, что проблема с плотностью покрытия в рамках СМ никак не решается принципиально. Единственный выход: нанять сотни тысяч переводчиков и заставить их заполнять лакуны по всем направлениям с низким статистическим покрытием. Как вы понимаете, никто это делать не сможет и не будет.

Помимо сложностей с низкой плотностью переводов по направлениям, выпадающим из узкого мейнстрима, у СМ еще множество мелких изъянов. Например, статистическая модель совершенно убого справляется с переводами имен собственных. Многие помнят о переводе Ющенко, как Януковича, а России как Канады. Отрицание (частичка «не») - это очень сложное препятствие. Частичку «не» можно правильно позиционировать в результате лингвистического анализа текста, а СМ таковым не занимается. В результате предложения, содержащие отрицание, часто переводятся движками на статистической модели с точностью до наоборот.

Как бы там ни было, ABBYY изначально отказалась от Rule Based Translation Model и замахнулась на систему компьютерного перевода нового поколения. Надо сказать, что придумывать особо ничего не требовалось. Универсальный язык понятий существует в структурной лингвистике в виде давней и несбыточной мечты еще со времен Людвига Витгенштейна. Даже Наум Хомский в своих ранних трудах лишь углублял существующую утопию.

Проект Compreno исходил из трех основополагающих посылок:

- использование качественного и бескомпромиссного синтаксического анализа.

- создание универсальной когнитивной модели языка, возможность которой определяется аксиомой о том, что люди, хоть и живут в разных условиях и говорят на разных языках, однако в массе своей мыслят одинаково. Формы выражения мысли разные, а вот понятийный аппарат совпадает.

- автоматизированное корпусное дообучение - лингвистические описания верифицируются и дополняются на основании статистической обработки корпусных данных.

Исходя из этих посылок была сформулирована идея Универсальной Семантической Иерархии (УСИ), способной описывать явления от общего к частному. На составление этой иерархии у ABBYY и ушло 15 лет. Получилось то, что вы уже знаете: только на сегодняшний день 70 тысяч понятий в универсальной части когнитивной модели, более 80 тысяч - в русской, более 90 - в английской.

Алгоритм машинного перевода, основанного на УСИ, выглядит следующим образом:

- Лексический анализ текста (выделение слов, знаков препинания, цифр и прочих текстовых единиц);

- Морфологический анализ (определение грамматических характеристик лексем);

- Синтаксический анализ (установление структуры предложения);

- Семантический анализ (выявление выражаемого значения в системе языка);

- Синтез из универсальной семантической структуры предложения на выходном языке.

В результате подбор слов для перевода осуществляется не напрямую из первого языка, а из понятийного набора, который, условно говоря, «висит» на той же ветке универсального семантического дерева, но только уже со стороны второго языка.

Поскольку модель УСИ сквозная, нижестоящие элементы системы по иерархии наследуют признаки вышестоящих элементов. Это простое, казалось бы, обстоятельство позволяет добиваться беспрецедентной точности машинного перевода, поскольку каждое слово из переводимого предложения описывается максимальным набором понятийных эквивалентов, причем не только видового, но и родовых качеств на всех уровнях смысловой иерархии.

В УСИ предусмотрены взаимосвязи между элементами структуры, относящимися к разным классам, и эти связи также структурированы и формализированы, что позволяет выполнять многоуровневый понятийный анализ текста, также повышающий качество перевода.

В процессе создания УСИ разработчикам открылись неожиданные грани использования системы: помимо машинного перевода язык УСИ можно использовать в интеллектуальных смысловых поисках и, возможно, автоматическом распознавании речи на новом качественном уровне, который достигается за счет глубокой интеграции и взаимопроникновения синтаксиса и семантики в модели универсальной семантической иерархии.

На альтернативных направлениях возникают, конечно, и свои сложности. Скажем, сегодня самым узким местом для глобального применения семантико-синтаксического анализа в массовых поисковых системах выступают очень высокие требования к компьютерным мощностям, необходимым для индексации информационных массивов на понятийном уровне. Требования эти несоизмеримо выше, чем при существующих формах традиционной индексации. Впрочем, уже сегодня методика семантико-синтаксического анализа может эффективно применяться (и применяется ABBYY - видел полностью функциональный прототип поискового движка собственными глазами) для более целенаправленного и узкого поиска в закрытых корпоративных системах.


Еще от автора Журнал «Компьютерра»
Компьютерра, 2008 № 01-02 (717-718)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Цифровой журнал «Компьютерра» 2013 № 18 (171)

ОглавлениеКолонкаПочему мы позволяем нас обманывать, или Грустные размышления об иррациональности политической жизни Автор: Дмитрий ШабановГолубятня: Samsung Galaxy S4 — цидули перебежчика (часть 1) Автор: Сергей ГолубицкийУроки любви к Родине: McAfee патентует технологию обнаружения и блокировки пиратского содержания Автор: Сергей ГолубицкийПодпадает ли астрономия под закон о митингах Автор: Дмитрий ВибеIT-рынокНасколько глупа шумиха вокруг «умных» часов? Автор: Андрей ПисьменныйПромзонаПосмотрите на свалку, которую китайцы превратили в парк Автор: Николай МаслухинЭтот сайт позволяет создать собственное световое шоу на точном макете Токио Автор: Николай МаслухинТехнологииДжипег, подвинься! Веппи как единственный необходимый графический формат Автор: Евгений ЗолотовИнновацииПочему менеджерам российских корпораций не нужны стартапы Автор: Елена КраузоваИнга Нахмансон (Fitting Reality): «Российскому e-commerce не до виртуальности» Автор: Елена КраузоваГидGoogle Now для iOS появился без лишнего шума и уже собирает сведения Автор: Андрей Васильков.


Компьютерра, 2007 № 15 (683)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2005 № 27-28 (599-600)

Документ создан на основе открытого контента, расположенного по адресуhttp://offline.computerra.ru/2005/599/Размер изображений не менялся, поэтому некоторые могут быть некорректно отображены на неVGA-моделях КПК (особенно скриншоты и таблицы).


Компьютерра, 2008 № 10 (726)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Цифровой журнал «Компьютерра» 2010 № 10

ОглавлениеТерралабOpera 10.50: оперативный релиз Автор: Андрей КрупинАнтивирус со вкусом "Яндекса" Автор: Андрей КрупинБлоки питания на любой случай, часть 2. 600–700 Вт Автор: Константин ИвановОбзор Samsung i5700 Galaxy Spica Автор: Алексей СтародымовСвоя играМодель чугунного дирижабля, или Учитель Добреску — 2 Автор: Василий ЩепетневКафедра Ваннаха: Нано-блюз Автор: Ваннах МихаилВасилий Щепетнёв: Разбор полётов перед стартом Автор: Василий ЩепетневКивино гнездо: За что боролись Автор: БЕРД КИВИОткрытые системы Королевского Флота Автор: Ваннах МихаилИнтерактивCeBIT 2010: первые новинки Автор: Алексей СтародымовReaDitorialMovavi: история развития Автор: Наталья ХудяковаГолубятня-ОнлайнГолубятня: Хули Холи Автор: Сергей ГолубицкийГолубятня: Бабу Автор: Сергей ГолубицкийГолубятня: Агора № 20 Автор: Сергей ГолубицкийНаука и жизньМарсианский экспресс Автор: Олег Волошин.


Рекомендуем почитать
День Литературы, 2006 № 08 (120)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2002 № 07 (071)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2003 № 03 (079)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Газета Завтра 759 (23/2008)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2007 № 45 (713)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Газета Завтра 793 (05/2009)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра PDA N79 (18.12.2010-24.12.2010)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Ваймучени из Пятого МираВаннах Михаил: Кафедра Ваннаха: Машины культурЕгор Емельянов: Всё, что нужно знать о четвёртом поколении Eee PCЕвгений Крестников: Российские IT-компании за рубежом: ISDEFВасилий Щепетнев: Василий Щепетнёв: Ответ векаАлександр Деревянко: Как Nvidia Optimus помогает экономить энергиюЕвгений Крестников: Российские IT-компании за рубежом: SpiritОлег Нечай: Платформа ПК: чего ждать в 2011 годуЕгор Емельянов: Софт: SIPPOINT - клиент для сети SIPNETОлег Нечай: Интегрированная графика в ноутбукахАлла Аршинова: Вадим Яковлев (ИК СО РАН) о перспективах биотопливаВасилий Щепетнев: Василий Щепетнёв: Двадцать восьмое желаниеЮрий Ильин: Кирилл Фаенов о суперкомпьютерах и MicrosoftСергей Голубицкий: Голубятня: Подстава (окончание)Олег Нечай: Оптические приводы DVD и Blu-ray в современных ноутбукахВаннах Михаил: Кафедра Ваннаха: Ирландия – виски и прочееПавел Скоков, Mobi.ru: Highscreen Hippo - коммуникатор в планшетеЕвгений Крестников: Российские IT-компании за рубежом: ЦРТАнатолий Вассерман: Твердотельные накопители.


Компьютерра PDA 26.06.2010-02.07.2010

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Интерактив №1Василий Щепетнев: Василий Щепетнёв: Сравнительная ментоскопияНиколай Маслухин: Промзона: Зубная щётка-неваляшкаОлег Нечай: Наборы системной логики для процессоров AMDЮрий Ильин: Вещь дня: Электронная книга Qumo ColibriАндрей Письменный: Internet Explorer 9 будет конкурировать с SilverlightЮрий Ильин: Константин Харитонов (CineSoft) о Cerebro и iPhoneСергей Голубицкий: Голубятня: Интерактив №2Николай Маслухин: Промзона: Солнечный фотоременьВаннах Михаил: Кафедра Ваннаха: Сингулярность и джонкаОлег Нечай: QuantumFilm: фотографии на "квантовой плёнке"Ирина Матюшонок: Михаил Плискин ("Ланит-Терком") об управлении компьютером с помощью жестовМихаил Карпов: YouTube не виноват в пиратствеСергей Голубицкий: Голубятня: ФутболМихаил Карпов: Элон Маск, мафия, ракеты и электромобилиНиколай Маслухин: Промзона: Подсветка для сумкиБерд Киви: Кивино гнездо: Межвидовое общениеМихаил Карпов: Появились первые подробности о Windows 8Андрей Письменный: Экскурсия в дата-центр "Оверсан Меркурий"Михаил Карпов: Софт: Simplenote - заметки на iPhone и на десктопеНика Парамонова: Тонкие клиенты ТОНКВасилий Щепетнев: Василий Щепетнёв: Хочу вспышку! Николай Маслухин: Промзона: Сушильный шкаф из 2050 годаСергей Голубицкий: Голубятня: Интерактив №3Крестников Евгений: Firefox 4: прогулка по минному полюМихаил Карпов: Софт: Читалка комиксов Comic RackМихаил Карпов: Microsoft не удалось стать производителем телефоновНиколай Маслухин: Промзона: Надувной галстукВаннах Михаил: Кафедра Ваннаха: Взгляд россиян на сингулярностьЮрий Ильин: Вузы и ИТ-компании: крупный разговорКрестников Евгений: Novell разрабатывает конкурента Google WaveЮрий Ильин: Игорь Снытко (Toshiba) о Cloud CompanionОлег Нечай: Системные платы для платформы AMD.


Компьютерра PDA N54 (04.09.2010-10.09.2010)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Оттачиваем дефиницииМихаил Карпов: Глава Twitter рассказал об информационной перегрузкеНиколай Маслухин: Промзона: Кроссовки из "Назад в будущее"Василий Щепетнев: Василий Щепетнёв: На пальмы!Юрий Ильин: Вокруг Apple сгущаются "облака"Михаил Карпов: Конкурс для любителей электронных книгИгорь Осколков: Клавиатура Thermaltake Challenger Pro для геймеровАндрей Письменный: IFA 2010: Раз планшет, два планшетВаннах Михаил: Кафедра Ваннаха: Мемристоры и приемные детиСергей Голубицкий: Голубятня: Почему умрёт AndroidНиколай Маслухин: Промзона: Стерилизатор кухонных досокМихаил Карпов: NASA разрабатывает "рой" спутников-"камикадзе"Олег Нечай: Память из оксида кремния: дефект не всегда дефектМихаил Карпов: Полиция совершила рейды на серверы "варезных" группЕвгений Крестников: Google Wave закроется не совсемМихаил Карпов: Семь самолётов помогут лучше понять ураганыНиколай Маслухин: Промзона: Браслет-смартфонМихаил Карпов: Google будет искать без запросовВасилий Щепетнев: Василий Щепетнёв: МетаинфляцияOtto Diggman: Readitorial: Сумма будущего.


Компьютерра PDA N167 (07.04.2012-13.04.2012)

ОГЛАВЛЕНИЕВасилий Щепетнев: Василий Щепетнёв: ЭлектрозависимостьСергей Голубицкий: Голубятня: Вымывание традицииЮрий Ильин: Крис Каспрзак (Siemens PLM Software) о PLMМихаил Ваннах: Кафедра Ваннаха: Забыть Макнамару?Сергей Голубицкий: Голубятня: Дело русских "медведей": fiat lux!Олег Нечай: Отзывчивые экраны: гаптические технологии в дисплеяхДмитрий Вибе: Уси-пуси, Вселенная.