Компьютерра, 2006 № 34 (654) - [24]

Шрифт
Интервал

Именно этот подход используют живые системы в процессе восприятия: дети, животные, люди и так далее. Мы его достаточно успешно применили в FineReader, но он имеет настолько общий характер, что мы применяем его для анализа естественных языковых предложений, в процессе извлечения смысла. Мы проводим (начинает загибать пальцы) лексический, морфологический, синтаксический, семантический, то есть полную цепочку анализа естественного языкового массива.

А каким образом достраивается внутренняя модель знаний о мире? Все эти знания вводятся…

— …экспертами. Да, у нас большой объем ручной работы. Правда, часть нам удалось автоматизировать; к счастью, есть методы, позволяющие снизить нагрузку на экспертов. Но рассказывать об этом я пока не могу.

Конечные пользователи и сами смогут дообучать систему. Продукты такого рода должны быть модифицируемы и самообучаемы — иначе они теряют смысл. Как конкретно это реализовано — тоже говорить еще рано.

Не может ли случиться так, что в результате ошибочно заложенных знаний стандартом станет какое-нибудь неверное представление?

— Ну, это общая проблема человечества. Это и сейчас происходит. Возьмите Википедию, один человек ошибся, тысяча человек поставила ссылку. Это жизнь. В словаре Ожегова упоминается, что правильно говорить «фо,льга». А все говорят «фольга,». Это, конечно, проблема, но она общего характера и к нашей системе прямого отношения не имеет.

А для написания программ вашу систему можно применять? Это ведь во многом более простая задача, чем обработка естественного языка.

— В каком-то смысле, да. Есть определенная грамматика, есть смысл и нужно синтезировать этот смысл в правилах заданной грамматики. Сходство имеется, но до конкретной реализации, думаю, еще далеко. Это все равно что сравнить распознавание букв и распознавание отпечатков пальцев. Базовые принципы и там и там одни и те же, но конкретика совершенно разная, разные модели знаний о предмете и т. д. Наш подход может быть применен для построения подобных систем, но это будет совершенно независимый продукт.

Слушаю и понимаю

Отчаявшись получить хоть какой-то намек, на что будет похож первый продукт на базе NLC, мы пробуем подойти к вопросу с другой стороны.

Какие задачи подтолкнули к созданию этой системы?

— Падение Вавилонской башни.

То есть все же лингвистические?

— Дело не только в языках. Дело в знаниях. Количество информации, порождающейся ежедневно, ежесекундно, растет в геометрической прогрессии, и очень скоро нас ожидает если не комбинаторный взрыв, то, по меньшей мере, значительные проблемы с доступом к этой информации. Но это только иллюстрация. То, что человечеству необходимы системы, позволяющие накапливать знания и обеспечивать к ним формальный доступ, совершенно очевидно. Возьмем, например, проблему распознавания слитной речи без настройки на голос диктора. В ее практической необходимости никто не сомневается. Можно ли сделать это с помощью компьютера? Ответ очень простой. Если проанализировать звуковой сигнал, записанный на этом диктофоне, то обнаружится, что семьдесят процентов изначальной информации было утеряно в процессе записи. А при этом уровне шума — все восемьдесят, а то и девяносто, местами. Тем не менее расшифровать наш разговор можно будет на 99 процентов, если не больше. Почему? Как вы можете достичь такого результата, если этих данных физически нет в сигнале?

Потому что вы не распознаете, а домысливаете. Точно так же во время нашего разговора ухо, как любой микрофон, теряет часть информации на входе. Собственно, мозг распознает только тридцать процентов информации, все остальное ему приходится додумывать на основе априорных знаний о языке, смысле и знании предмета (прагматических знаний). Проверить это довольно просто. Если бы я сейчас продиктовал вам предложение по-армянски, вы бы смогли правильно записать только тридцать процентов букв, хотя армянские буквы в целом похожи на русские (здесь имеется в виду не схожесть алфавитов, а фонетическая схожесть. — Прим. ред.). И мы понимаем, что задача распознавания слитной речи — в меньшей степени задача распознавания, а в большей — задача понимания.

И сколько времени пройдет между выпуском NLC и выходом первой системы распознавания слитной речи?

— Много. К сожалению, устная речь сильно неформализована, в ней зачастую не соблюдаются законы семантики, так что один этап анализа практически выпадает. Также сложно применять синтаксический анализ: неполные, оборванные предложения, где заканчивается одно предложение и начинается другое — непонятно. Плюс интонационные нюансы. Тонкостей здесь масса. Так что о работающей системе распознавания слитной речи говорить пока рано. Но довольно быстро появятся системы, которые распознают речь не так хорошо, как люди, но во много раз точнее, чем сейчас. Они будут успешно работать в ситуации, когда озвучивается письменная речь — например, при чтении доклада. Наш с вами разговор или, скажем, телефонный разговор или непринужденная беседа на бытовые темы людей, которые хорошо друг друга знают и понимают, что называется, с полуслова — здесь уже сложнее, конечно.


Еще от автора Журнал «Компьютерра»
Компьютерра, 2008 № 01-02 (717-718)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Цифровой журнал «Компьютерра» 2013 № 18 (171)

ОглавлениеКолонкаПочему мы позволяем нас обманывать, или Грустные размышления об иррациональности политической жизни Автор: Дмитрий ШабановГолубятня: Samsung Galaxy S4 — цидули перебежчика (часть 1) Автор: Сергей ГолубицкийУроки любви к Родине: McAfee патентует технологию обнаружения и блокировки пиратского содержания Автор: Сергей ГолубицкийПодпадает ли астрономия под закон о митингах Автор: Дмитрий ВибеIT-рынокНасколько глупа шумиха вокруг «умных» часов? Автор: Андрей ПисьменныйПромзонаПосмотрите на свалку, которую китайцы превратили в парк Автор: Николай МаслухинЭтот сайт позволяет создать собственное световое шоу на точном макете Токио Автор: Николай МаслухинТехнологииДжипег, подвинься! Веппи как единственный необходимый графический формат Автор: Евгений ЗолотовИнновацииПочему менеджерам российских корпораций не нужны стартапы Автор: Елена КраузоваИнга Нахмансон (Fitting Reality): «Российскому e-commerce не до виртуальности» Автор: Елена КраузоваГидGoogle Now для iOS появился без лишнего шума и уже собирает сведения Автор: Андрей Васильков.


Компьютерра, 2007 № 15 (683)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2006 № 30 (650)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2005 № 27-28 (599-600)

Документ создан на основе открытого контента, расположенного по адресуhttp://offline.computerra.ru/2005/599/Размер изображений не менялся, поэтому некоторые могут быть некорректно отображены на неVGA-моделях КПК (особенно скриншоты и таблицы).


Цифровой журнал «Компьютерра» 2010 № 10

ОглавлениеТерралабOpera 10.50: оперативный релиз Автор: Андрей КрупинАнтивирус со вкусом "Яндекса" Автор: Андрей КрупинБлоки питания на любой случай, часть 2. 600–700 Вт Автор: Константин ИвановОбзор Samsung i5700 Galaxy Spica Автор: Алексей СтародымовСвоя играМодель чугунного дирижабля, или Учитель Добреску — 2 Автор: Василий ЩепетневКафедра Ваннаха: Нано-блюз Автор: Ваннах МихаилВасилий Щепетнёв: Разбор полётов перед стартом Автор: Василий ЩепетневКивино гнездо: За что боролись Автор: БЕРД КИВИОткрытые системы Королевского Флота Автор: Ваннах МихаилИнтерактивCeBIT 2010: первые новинки Автор: Алексей СтародымовReaDitorialMovavi: история развития Автор: Наталья ХудяковаГолубятня-ОнлайнГолубятня: Хули Холи Автор: Сергей ГолубицкийГолубятня: Бабу Автор: Сергей ГолубицкийГолубятня: Агора № 20 Автор: Сергей ГолубицкийНаука и жизньМарсианский экспресс Автор: Олег Волошин.


Рекомендуем почитать
Газета Завтра 319 (2 2000)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Газета Завтра 272 (7 1999)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Литературная Газета 6335 (№ 31 2011)

"Литературная газета" общественно-политический еженедельник Главный редактор "Литературной газеты" Поляков Юрий Михайлович http://www.lgz.ru/.


Литературная Газета 6303 (№ 01 2011)

"Литературная газета" общественно-политический еженедельник Главный редактор "Литературной газеты" Поляков Юрий Михайлович http://www.lgz.ru/.


Литературная Газета 6259 (№ 04 2010)

"Литературная газета" общественно-политический еженедельник Главный редактор "Литературной газеты" Поляков Юрий Михайлович http://www.lgz.ru/.


Цифровой журнал «Компьютерра» 2012 № 05 (105)

ОглавлениеТерралабСинтез звука: сказки и сказочники Автор: Павел ЗолинЧто показывали на Consumer Electronics Show 2012 Автор: Олег НечайКолумнистыКафедра Ваннаха: Непроданная Луна Автор: Михаил ВаннахАлександр Амзин: Воля и разум Автор: Александр АмзинДмитрий Шабанов: Суррогаты природоохраны Автор: Дмитрий ШабановВасилий Щепетнёв: Исчезновение видов Автор: Василий ЩепетневДмитрий Вибе: Запрограммированное счастье Автор: Дмитрий ВибеГолубятня-ОнлайнГолубятня: Читалка-планшет Pocketbook eReader A10' Автор: Сергей Голубицкий.


Компьютерра, 2008 № 17 (733)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2006 № 23 (643)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2006 № 06 (626)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2008 № 10 (726)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.