Компьютерра PDA N161 (25.02.2012-02.03.2012) - [5]

Шрифт
Интервал

- компьютеризированный перевод текста с любого языка на любой на качественном уровне, несопоставимым со всеми распространенными сегодня системами перевода;

- полноценный интеллектуальный поиск без специализированного синтаксиса запросов (Поиск по смыслу, извлечение фактов и связей между объектами поиска/мониторинга; мониторинг компаний и персоналий и построение аналитических отчетов на основе параметров разного типа и др.);

системы искусственного интеллекта самых разнообразных профилей и применений;

- автоматическое распознавание речи;

- классификация документов и поиск похожих документов по смыслу;

- анализ тональности в мониторинге;

- реферирование и аннотирование (написание краткого содержания длинных документов)

и это только начало.

За пару дней до своей индийской зимовки я встретился с Татьяной Даниэлян, заместителем директора по лингвистическим технологиям компании ABBYY, и Сергеем Андреевым, генеральным директором и президентом группы компаний ABBYY и на протяжении полных двух часов сидел, широко разинув рот и охая от восторга по мере того, как в мое сознание вливались подробности революционного проекта, подкрепленные полноценной демонстрацией действующего прототипа движков машинного перевода и системы интеллектуального поиска.

Все то время, что Сергей и Татьяна, сами едва сдерживая восторг от собственных достижений, стягивали завесу тайны с Compreno, меня не покидало чувство того, что я участвую в каком-то акте добровольного промышленного шпионажа. Согласитесь, масштаб проекта ошеломляет: 15 лет интенсивной работы сотен людей, 50 миллионов долларов собственных инвестиций, совсем недавно усиленных сколковским грантом в 475 миллионов рублей. Вся компьютерная мощь головного офиса ABBYY (а он, поверьте на слово, ошеломляет: 6 этажей 7-этажногоогромного П-образного здания) в любую свободную минуту задействована для просчетов, необходимых для отладки и совершенствования Compreno, в первую очередь УСИ.

Впрочем, шпионаж - это лишь в моей голове, поскольку, разумеется, беседа наша состоялась в момент, когда Abbyy вышла на финишную прямую и была готова раскрыть миру свои карты.

Подробности Compreno я донесу читателям со слов Сергея Андреева и Татьяны Даниэлян - не потому, что не доверяю собственным суждениям, а потому что рассказ у обоих получился гладким и содержательным, зачем же плодить сущности?

Начало разработки Compreno пришлось на 90е годы, когда в арсенале ABBYY (в те годы - еще BIT Software) уже числилось два ледокола: словари Lingvo и программа для распознавания текста FineReader. Продукты продавались по всему миру, были хитами и приносили стабильную прибыль - манна небесная для романтических проектов вроде Compreno, стресс которых не пережил бы ни один сторонний инвестор (вкладывать миллионы долларов в нечто совершенно революционное да к тому же и с неизвестными перспективами? а вдруг ничего не получится? нет уж увольте!).

ABBYY обошлась без чужих денег и это спасло Compreno, позволив довести до победного конца проект со столь колоссальными материальными и людскими затратами.

Успех обеспечил и правильный изначальный выбор направления для разработки системы автоматического перевода. В 90-е в мире правила одна королева - Rule-Based Translation Model, классическая модель перевода, основанная на ограниченном наборе готовых правил для некоторой пары языков. Одна из проблем RBTM - в накоплении все новых и новых правил, которые в какой-то момент просто начинают конфликтовать между собой. Анализируя предложение, мы можем применить разные комплекты правил, при этом машине неведомы приоритеты. Перевод, основанный на RBTM, как правило, не озабочен полным синтаксическим анализом: вместо него предложение делится на фреймы, на которые затем интерполируют существующие в системе правила для получения перевода. RBMT системы не учитывают семантику.

В начале XXI века усилиями Google мир подсел на иглу нового алгоритма перевода - так называемой статистической модели. Основа СМ - наличие обширной базы разнонаправленных переводов. Мы задаем статистическому движку предложение для перевода, он ищет в базе данных как в словаре варианты уже существующих переводов аналогичного текста и после незначительных изменений выдает вполне приличный результат.

Изменения не самые существенные. Предположим нам нужно перевести предложение «в комнате стоит красный стул», а в статистической базе уже есть переведенная фраза «в комнате стоит зеленый стол» - решение элементарно: берется уже существующий шаблон перевода и новые слова просто заменяются по словарю.

Поскольку в СМ используются уже готовые человеческие переводы заведомо высокого качества, то на выходе получается весьма недурственный результат, ибо для осуществления перевода не нужно погружаться в синтаксис, специфику фразеологии конкретного языка и проч.

Все замечательно, однако, лишь до тех пор, пока дело не касается переводов в направлениях с так называемым низким покрытием (скажем, каким-нибудь, румынско-русским или тайско-венгерским).

Где брать аналоги? По словам Сергея Андреева опасность подстерегает также при уходе в предметные области на массовых направлениях, потому что параллельных текстов становится сильно меньше, чем в бытовой и разговорной тематике. Сочетание ухода в предметную область и не самого массового направления перевода приводит к слабым результатам. Скажем, IT. Казалось бы, какие сложности могут возникнуть у машинного перевода с текстом на тему информационных технологий? В самом деле - никаких, если мы занимаемся русско-английским переводом. Зато они тут же возникнут на русско-французской ниве! Статистическая база в этом направлении чрезвычайно скудная и лакуны возникают на каждом шагу.


Еще от автора Журнал «Компьютерра»
Компьютерра, 2008 № 01-02 (717-718)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Цифровой журнал «Компьютерра» 2013 № 18 (171)

ОглавлениеКолонкаПочему мы позволяем нас обманывать, или Грустные размышления об иррациональности политической жизни Автор: Дмитрий ШабановГолубятня: Samsung Galaxy S4 — цидули перебежчика (часть 1) Автор: Сергей ГолубицкийУроки любви к Родине: McAfee патентует технологию обнаружения и блокировки пиратского содержания Автор: Сергей ГолубицкийПодпадает ли астрономия под закон о митингах Автор: Дмитрий ВибеIT-рынокНасколько глупа шумиха вокруг «умных» часов? Автор: Андрей ПисьменныйПромзонаПосмотрите на свалку, которую китайцы превратили в парк Автор: Николай МаслухинЭтот сайт позволяет создать собственное световое шоу на точном макете Токио Автор: Николай МаслухинТехнологииДжипег, подвинься! Веппи как единственный необходимый графический формат Автор: Евгений ЗолотовИнновацииПочему менеджерам российских корпораций не нужны стартапы Автор: Елена КраузоваИнга Нахмансон (Fitting Reality): «Российскому e-commerce не до виртуальности» Автор: Елена КраузоваГидGoogle Now для iOS появился без лишнего шума и уже собирает сведения Автор: Андрей Васильков.


Компьютерра, 2007 № 15 (683)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2005 № 27-28 (599-600)

Документ создан на основе открытого контента, расположенного по адресуhttp://offline.computerra.ru/2005/599/Размер изображений не менялся, поэтому некоторые могут быть некорректно отображены на неVGA-моделях КПК (особенно скриншоты и таблицы).


Цифровой журнал «Компьютерра» 2010 № 10

ОглавлениеТерралабOpera 10.50: оперативный релиз Автор: Андрей КрупинАнтивирус со вкусом "Яндекса" Автор: Андрей КрупинБлоки питания на любой случай, часть 2. 600–700 Вт Автор: Константин ИвановОбзор Samsung i5700 Galaxy Spica Автор: Алексей СтародымовСвоя играМодель чугунного дирижабля, или Учитель Добреску — 2 Автор: Василий ЩепетневКафедра Ваннаха: Нано-блюз Автор: Ваннах МихаилВасилий Щепетнёв: Разбор полётов перед стартом Автор: Василий ЩепетневКивино гнездо: За что боролись Автор: БЕРД КИВИОткрытые системы Королевского Флота Автор: Ваннах МихаилИнтерактивCeBIT 2010: первые новинки Автор: Алексей СтародымовReaDitorialMovavi: история развития Автор: Наталья ХудяковаГолубятня-ОнлайнГолубятня: Хули Холи Автор: Сергей ГолубицкийГолубятня: Бабу Автор: Сергей ГолубицкийГолубятня: Агора № 20 Автор: Сергей ГолубицкийНаука и жизньМарсианский экспресс Автор: Олег Волошин.


Компьютерра, 2006 № 30 (650)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Рекомендуем почитать
«Если», 2010 № 10 (212)

Стивен БАКСТЕР. ЗЕМЛЯ-2Эта планета стала приютом для колонистов, спасшихся с Земли. Но и на новой родине их потомков ждут суровые испытания.Майк РЕЗНИК. ОХОТНИКИ ЗА СУВЕНИРАМИВрага надо знать в лицо. Если вы таковое найдете.Сергей СИНЯКИН. УКУС, УДАР, ОПЛЕУХА И МНОГИЕ ДРУГИЕЗвезды на небе разглядывать — это не деньги считать. Но и из астрономов порой выходит толк.Крис БЕКЕТТ. АТОМНАЯ ИСТИНАКогда-то очкариков дразнили. Теперь человек, желающий смотреть на мир невооруженным глазом, — изолят-одиночка.Тимур АЛИЕВ, Евгений ГАРКУШЕВ.


Газета Завтра 881 (40 2010)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2009 № 04 (152)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2008 № 11 (147)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2006 № 12 (124)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


День Литературы, 2006 № 08 (120)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра PDA N79 (18.12.2010-24.12.2010)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Ваймучени из Пятого МираВаннах Михаил: Кафедра Ваннаха: Машины культурЕгор Емельянов: Всё, что нужно знать о четвёртом поколении Eee PCЕвгений Крестников: Российские IT-компании за рубежом: ISDEFВасилий Щепетнев: Василий Щепетнёв: Ответ векаАлександр Деревянко: Как Nvidia Optimus помогает экономить энергиюЕвгений Крестников: Российские IT-компании за рубежом: SpiritОлег Нечай: Платформа ПК: чего ждать в 2011 годуЕгор Емельянов: Софт: SIPPOINT - клиент для сети SIPNETОлег Нечай: Интегрированная графика в ноутбукахАлла Аршинова: Вадим Яковлев (ИК СО РАН) о перспективах биотопливаВасилий Щепетнев: Василий Щепетнёв: Двадцать восьмое желаниеЮрий Ильин: Кирилл Фаенов о суперкомпьютерах и MicrosoftСергей Голубицкий: Голубятня: Подстава (окончание)Олег Нечай: Оптические приводы DVD и Blu-ray в современных ноутбукахВаннах Михаил: Кафедра Ваннаха: Ирландия – виски и прочееПавел Скоков, Mobi.ru: Highscreen Hippo - коммуникатор в планшетеЕвгений Крестников: Российские IT-компании за рубежом: ЦРТАнатолий Вассерман: Твердотельные накопители.


Компьютерра PDA 26.06.2010-02.07.2010

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Интерактив №1Василий Щепетнев: Василий Щепетнёв: Сравнительная ментоскопияНиколай Маслухин: Промзона: Зубная щётка-неваляшкаОлег Нечай: Наборы системной логики для процессоров AMDЮрий Ильин: Вещь дня: Электронная книга Qumo ColibriАндрей Письменный: Internet Explorer 9 будет конкурировать с SilverlightЮрий Ильин: Константин Харитонов (CineSoft) о Cerebro и iPhoneСергей Голубицкий: Голубятня: Интерактив №2Николай Маслухин: Промзона: Солнечный фотоременьВаннах Михаил: Кафедра Ваннаха: Сингулярность и джонкаОлег Нечай: QuantumFilm: фотографии на "квантовой плёнке"Ирина Матюшонок: Михаил Плискин ("Ланит-Терком") об управлении компьютером с помощью жестовМихаил Карпов: YouTube не виноват в пиратствеСергей Голубицкий: Голубятня: ФутболМихаил Карпов: Элон Маск, мафия, ракеты и электромобилиНиколай Маслухин: Промзона: Подсветка для сумкиБерд Киви: Кивино гнездо: Межвидовое общениеМихаил Карпов: Появились первые подробности о Windows 8Андрей Письменный: Экскурсия в дата-центр "Оверсан Меркурий"Михаил Карпов: Софт: Simplenote - заметки на iPhone и на десктопеНика Парамонова: Тонкие клиенты ТОНКВасилий Щепетнев: Василий Щепетнёв: Хочу вспышку! Николай Маслухин: Промзона: Сушильный шкаф из 2050 годаСергей Голубицкий: Голубятня: Интерактив №3Крестников Евгений: Firefox 4: прогулка по минному полюМихаил Карпов: Софт: Читалка комиксов Comic RackМихаил Карпов: Microsoft не удалось стать производителем телефоновНиколай Маслухин: Промзона: Надувной галстукВаннах Михаил: Кафедра Ваннаха: Взгляд россиян на сингулярностьЮрий Ильин: Вузы и ИТ-компании: крупный разговорКрестников Евгений: Novell разрабатывает конкурента Google WaveЮрий Ильин: Игорь Снытко (Toshiba) о Cloud CompanionОлег Нечай: Системные платы для платформы AMD.


Компьютерра PDA N167 (07.04.2012-13.04.2012)

ОГЛАВЛЕНИЕВасилий Щепетнев: Василий Щепетнёв: ЭлектрозависимостьСергей Голубицкий: Голубятня: Вымывание традицииЮрий Ильин: Крис Каспрзак (Siemens PLM Software) о PLMМихаил Ваннах: Кафедра Ваннаха: Забыть Макнамару?Сергей Голубицкий: Голубятня: Дело русских "медведей": fiat lux!Олег Нечай: Отзывчивые экраны: гаптические технологии в дисплеяхДмитрий Вибе: Уси-пуси, Вселенная.


Компьютерра PDA N54 (04.09.2010-10.09.2010)

ОГЛАВЛЕНИЕСергей Голубицкий: Голубятня: Оттачиваем дефиницииМихаил Карпов: Глава Twitter рассказал об информационной перегрузкеНиколай Маслухин: Промзона: Кроссовки из "Назад в будущее"Василий Щепетнев: Василий Щепетнёв: На пальмы!Юрий Ильин: Вокруг Apple сгущаются "облака"Михаил Карпов: Конкурс для любителей электронных книгИгорь Осколков: Клавиатура Thermaltake Challenger Pro для геймеровАндрей Письменный: IFA 2010: Раз планшет, два планшетВаннах Михаил: Кафедра Ваннаха: Мемристоры и приемные детиСергей Голубицкий: Голубятня: Почему умрёт AndroidНиколай Маслухин: Промзона: Стерилизатор кухонных досокМихаил Карпов: NASA разрабатывает "рой" спутников-"камикадзе"Олег Нечай: Память из оксида кремния: дефект не всегда дефектМихаил Карпов: Полиция совершила рейды на серверы "варезных" группЕвгений Крестников: Google Wave закроется не совсемМихаил Карпов: Семь самолётов помогут лучше понять ураганыНиколай Маслухин: Промзона: Браслет-смартфонМихаил Карпов: Google будет искать без запросовВасилий Щепетнев: Василий Щепетнёв: МетаинфляцияOtto Diggman: Readitorial: Сумма будущего.