Цифровой журнал «Компьютерра» 2012 № 35 (135) - [3]

Шрифт
Интервал

- Для российского рынка?

- Нет, речь обо всём мире — для экспорта это куда более актуально, чем для нашего рынка. У нас же спрос не изменился: это смешанные документы, преимущественно на русском языке, с появлением слов на иностранных языках. Структура потребления в смысле обрабатываемых материалов тоже не изменилась. А чтобы завоевать передовые позиции в мире, мы работаем не только над повышение качества, но и над поддержкой новых языков. Например, над арабским — он уже появился у нас в одиннадцатой версии, и мы намерены сделать его распознавание лучшим в мире. Сегодня FineReader распознает документы на 189 языках, и это самый высокий показатель в мире.

- Какое соотношение потребления вашей продукции в России и за рубежом?

- Россия и СНГ дают от 20 до 25 процентов.

- Могут ли какие-то тенденции отрицательно повлиять на необходимость в технологиях распознавания? Например, процессорные мощности станут доступнее, и сократится надобность в технологиях распознавания?

- Исходя из того, что человек воспринимает информацию при помощи звука и зрения, в принципе, необходимость анализа текстовой информации вряд ли отпадёт. Вопрос в том, в каком виде эта информация будет поступать на вход. Например, сейчас такие вещи, как извлечение информации из окружающей нас действительности, решаются достаточно слабо. Есть компании, которые лицензируют технологии распознавания вывесок и знаков, чтобы программировать реагирование на них. Но пока это используется в ограниченном объёме. Я думаю, что повышение мощностей устройств, на которых происходит предобработка изображений, лучшее соединение их с интернетом и, наконец, бесконечные мощности, которые есть в «облаке», будут вести к повышению качества обработки любой картинки, которая попадёт на вход, будь это статичное фото или видеопоток. Если что-то и может повлиять негативно, то тот факт, что люди будут больше обмениваться электронной информацией.

- По сути, уже сейчас все документы набираются на компьютере.

- В последние несколько лет в США несколько уменьшаются объёмы производимой бумаги, но не объёмы генерации этой бумаги, если мы говорим о бизнес-транзакциях. Почему-то люди предпочитают физические носители. Если говорить о России, то я думаю, что у нас в ближайшее десятилетие будет только подъём бумажных носителей — как в повседневной жизни, так и в бизнесе. Тем более что необработанных архивов ещё великое множество. Но в итоге, конечно, электронный обмен данными приведёт к тому, что некоторые сценарии, скорее всего, отомрут и определённые данные будут храниться только в электронном виде. Но технология распознавания и там может оказаться полезной — к примеру, если вам из файла PDF нужно извлечь структурированную информацию. Можно попробовать извлечь текст, но по опыту могу сказать, что PDF настолько по-разному генерируются разными программами, что проще будет этот документ превратить в картинку и распознать.

- Как вы расцениваете угрозу появления бесплатных OCR? Google, к примеру, такой уже предоставляет.

- Мы зарабатываем достаточно много денег на применении этой технологии в бизнесе. И когда речь идёт о бизнесе, то продукт высокого качества бесплатно никто не раздаёт. И требования здесь довольно высоки: если, например, в документе приходится перепечатывать хотя бы несколько символов на каждой странице, то технология уже считается непригодной для использования в реальных условиях. Мы познакомились с тем, как работает распознавание на Google Docs. Идея хорошая, но сервису есть куда расти по качеству. Зато бесплатные решения могут популяризовать технологию в целом. Многим пользователям ещё нужно объяснять, чем отсканированный документ отличается от текста. Индивидуального пользователя может и устроить бесплатное решение, но он поймёт принцип. И если бесплатный продукт будет предоставлять недостаточное качество, то он воспользуется платным.

- То есть это ещё может оказаться плюсом?

- В принципе, да, нам кажется, что это скорее плюс, чем минус. Конечно, если Google будет вкладываться в улучшение этой технологии, не получая за это денег, то это усложнит нашу жизнь. Но у нас есть очень большой сегмент бизнес-применения технологии, а там помимо простого распознавания текста нужно извлекать разные наборы данных, сопоставлять их между собой. Если это многостраничный документ, то иногда нужно проверять самые разные вещи: сходится ли контрольная сумма, соответствуют ли значения на пятой странице значениям на первой и так далее. Это дополнительная бизнес-логика, которая накладывается сверху на процесс распознавания и задаётся специальным языком описания документов. За это организации (государственные или частные) готовы платить большие деньги, потому что иначе у них альтернатива только одна — дать эту работу человеку. А это куда менее эффективно.

- Но проверять-то всё равно надо, если такие важные документы.

- Да. Но дело в том, что технологии распознавания живут достаточно просто: неуверенно распознанные символы или те куски информации, которые между собой не согласуются, подсвечиваются, и их видит человек-оператор — ему не нужно даже смотреть документ целиком. Это экономит много времени. Учитывая, что количество и темпы роста информации с каждым годом принимают всё более угрожающие формы, мы думаем, что бизнес-применение у этой технологии как минимум достаточно светлое — на десяток-второй лет так точно. А дальше посмотрим.


Еще от автора Журнал «Компьютерра»
Компьютерра, 2008 № 01-02 (717-718)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Цифровой журнал «Компьютерра» 2013 № 18 (171)

ОглавлениеКолонкаПочему мы позволяем нас обманывать, или Грустные размышления об иррациональности политической жизни Автор: Дмитрий ШабановГолубятня: Samsung Galaxy S4 — цидули перебежчика (часть 1) Автор: Сергей ГолубицкийУроки любви к Родине: McAfee патентует технологию обнаружения и блокировки пиратского содержания Автор: Сергей ГолубицкийПодпадает ли астрономия под закон о митингах Автор: Дмитрий ВибеIT-рынокНасколько глупа шумиха вокруг «умных» часов? Автор: Андрей ПисьменныйПромзонаПосмотрите на свалку, которую китайцы превратили в парк Автор: Николай МаслухинЭтот сайт позволяет создать собственное световое шоу на точном макете Токио Автор: Николай МаслухинТехнологииДжипег, подвинься! Веппи как единственный необходимый графический формат Автор: Евгений ЗолотовИнновацииПочему менеджерам российских корпораций не нужны стартапы Автор: Елена КраузоваИнга Нахмансон (Fitting Reality): «Российскому e-commerce не до виртуальности» Автор: Елена КраузоваГидGoogle Now для iOS появился без лишнего шума и уже собирает сведения Автор: Андрей Васильков.


Компьютерра, 2007 № 15 (683)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Компьютерра, 2005 № 27-28 (599-600)

Документ создан на основе открытого контента, расположенного по адресуhttp://offline.computerra.ru/2005/599/Размер изображений не менялся, поэтому некоторые могут быть некорректно отображены на неVGA-моделях КПК (особенно скриншоты и таблицы).


Цифровой журнал «Компьютерра» 2010 № 10

ОглавлениеТерралабOpera 10.50: оперативный релиз Автор: Андрей КрупинАнтивирус со вкусом "Яндекса" Автор: Андрей КрупинБлоки питания на любой случай, часть 2. 600–700 Вт Автор: Константин ИвановОбзор Samsung i5700 Galaxy Spica Автор: Алексей СтародымовСвоя играМодель чугунного дирижабля, или Учитель Добреску — 2 Автор: Василий ЩепетневКафедра Ваннаха: Нано-блюз Автор: Ваннах МихаилВасилий Щепетнёв: Разбор полётов перед стартом Автор: Василий ЩепетневКивино гнездо: За что боролись Автор: БЕРД КИВИОткрытые системы Королевского Флота Автор: Ваннах МихаилИнтерактивCeBIT 2010: первые новинки Автор: Алексей СтародымовReaDitorialMovavi: история развития Автор: Наталья ХудяковаГолубятня-ОнлайнГолубятня: Хули Холи Автор: Сергей ГолубицкийГолубятня: Бабу Автор: Сергей ГолубицкийГолубятня: Агора № 20 Автор: Сергей ГолубицкийНаука и жизньМарсианский экспресс Автор: Олег Волошин.


Компьютерра, 2006 № 30 (650)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Рекомендуем почитать
Цифровой журнал «Компьютерра» 2014 № 19 (224)

ОглавлениеКолонкаОб интернете, университетском образовании и Дне Победы Автор: Михаил ВаннахДоля участия: совместное творчество человека и машины Автор: Василий ЩепетнёвДень радио и ERP-зависимость Автор: Михаил ВаннахIT-рынокКак темнеет белая шляпа: история превращения в хакера Автор: Андрей ВасильковМиллиардные ставки Facebook на виртуальность Автор: Андрей ВасильковПромзонаКнига, через которую можно пить Автор: Николай МаслухинКольцо для управления всем Автор: Николай МаслухинПовседневный дизайн: модификация интерьера в самолетах Автор: Николай МаслухинMobileRansomware: как вымогатели блокируют смартфоны и что с этим делать Автор: Андрей ВасильковТехнологииСмартфон за $20: а что хорошего? Автор: Евгений ЗолотовАдресная строка: страдает, но не прощается! Автор: Евгений ЗолотовАркаим: искусство вспоминать Автор: Евгений ЗолотовГидПриложение Adobe Voice для iPad позволит сделать за пару минут информативный ролик-презентацию Автор: Михаил Карпов.


Газета Завтра 1059 (10 2014)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Газета Завтра 436 (14 2002)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Литературная Газета, 6395 (№ 49/2012)

"Литературная газета" общественно-политический еженедельник Главный редактор "Литературной газеты" Поляков Юрий Михайлович http://www.lgz.ru/.


Цифровой журнал «Компьютерра» 2012 № 44 (144)

ОглавлениеИнтервьюВиктор Достов (АЭД) о регулировании электронных денег Автор: Евгений КрестниковКолумнистыАлександр Амзин: Это у нас свободно Автор: Александр АмзинВасилий Щепетнёв: Памятник из разбавленного полония Автор: Василий ЩепетневКафедра Ваннаха: Два лика Аретино Автор: Михаил ВаннахДмитрий Шабанов: Невидимая Нога и национальный вопрос Автор: Дмитрий ШабановГолубятня-ОнлайнГолубятня: Умная иллюминация в моем безумном доме Автор: Сергей Голубицкий.


Компьютерра PDA N169 (14.04.2012-20.04.2012)

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.


Цифровой журнал «Компьютерра» 2012 № 49 (149)

ОглавлениеИнтервьюВалерий Тельнов (ИЯФ СО РАН) о бозоне Хиггса Автор: Алла АршиноваТерралабНовое поколение нетбуков Acer и Packard Bell Автор: Ника ПарамоноваКолумнистыВасилий Щепетнёв: Освобождение Автор: Василий ЩепетневДмитрий Вибе: А вы уже закупили спички и соль? Автор: Дмитрий ВибеКафедра Ваннаха: Сланцевая передышка Автор: Михаил ВаннахДмитрий Шабанов: Вперёд, к эпигенетическому будущему! Автор: Дмитрий ШабановГолубятня-ОнлайнГолубятня: Хоть бы что-нибудь еще… всё не так, как надо! Автор: Сергей ГолубицкийГолубятня: Касталийский мираж истории Автор: Сергей Голубицкий.


Цифровой журнал «Компьютерра» 2013 № 11 (164)

ОглавлениеКолонкаПринуждение к альтруизму, или 451 градус политкорректности Автор: Василий ЩепетнёвМатематика как ресурс: На каком наследии работает отрасль информационных технологий Автор: Михаил ВаннахГолубятня: Праздник на нашей улице, или Фактура, столь редкая для софтверных обзоров Автор: Сергей ГолубицкийТень Рикардо: Чему биржевик и мыслитель былых времён может научить нас в информационную эру? Автор: Михаил ВаннахЗаказная мифология IT-прессы Автор: Сергей ГолубицкийЛожь навсегда: почему нас обманывают снова и снова Автор: Василий ЩепетнёвИгра в беспилотники: Как технологии боевых роботов соотносятся с классическим римским правом Автор: Михаил ВаннахСотая колонка: попытка перевести дух, осмотреться и понять, что и зачем я делаю Автор: Дмитрий ШабановВот и пришел Песочный Человек: о презентации Samsung своего нового флагмана и харакири Филла Шиллера Автор: Сергей ГолубицкийЧто общего между отключением Google Reader, заявлением Элиссы Финк и жалобой Дина Гарфилда? Автор: Сергей ГолубицкийОрганика в старом веществе Солнечной системы Автор: Дмитрий ВибеIT-рынокКак компьютеры, стоящие доллар, изменят привычные вещи и перевернут всё с ног на голову Автор: Андрей ПисьменныйАлександр Чачава: «Россия появилась на мировой технологической карте как полноценный инновационный рынок» Автор: Елена КраузоваGrowth Hackers: кто это и почему они нужны стартапам Автор: Игорь ТишкинКак смартфоны смогут демократизировать такси Автор: Андрей ПисьменныйПромзонаПосмотрите на серию плакатов, посвящённых выдающимся учёным и их открытиям Автор: Николай МаслухинДополненная реальность как способ обучения игре в бильярд Автор: Николай МаслухинПосмотрите на составные часы, складывающие время из сотен других часов Автор: Николай МаслухинMobileТестирование приложений для Android как инструмент выхода в ТОП на Google Play Автор: Дмитрий Куриленко, компания PromwadВосемь угроз вашему мобильному банку.


Цифровой журнал «Компьютерра» 2014 № 07 (212)

ОглавлениеКолонкаThe Narod, Iron Balls и удовольствие от унижения сильных мира сего Автор: Сергей ГолубицкийОлимпийская тоска по хакерам Автор: Лёха АндреевВирусы, управляющие миром, и чудесная история Fab.com Автор: Сергей ГолубицкийТайный клуб миллиардеров и механизмы частного фаворитизма Автор: Сергей ГолубицкийНевидимая революция Flow как ключ к пониманию проблем отечественной коммерции Автор: Сергей ГолубицкийКак отечественная интернет-экономика меняет рынок труда? Автор: Михаил ВаннахОт «Фитбита» до медкарты: как заставить персональные данные работать на себя Автор: Так зачем DARPA открывает всему свету закрома инноваций? Автор: Михаил ВаннахОкончательный диагноз биткойна, или Что общего между пиастром ЛГБТ и кольцом Саурона? Автор: Сергей ГолубицкийПредчувствие победоносной войны Автор: Василий ЩепетнёвIT-рынок8 самых странных компьютерных симуляторов Автор: Олег НечайSony прощается с персоналкой.


Цифровой журнал «Компьютерра» 2012 № 01 (101)

ОглавлениеСтатьиTertium datur: другие компьютеры Автор: Евгений Лебеденко, Mobi.ruИнтервьюПавел Фролов («ГНУ/Линуксцентр») о НПП Автор: Евгений КрестниковА. Самсонов о троичной логике и цифровой археологии Автор: Андрей ПисьменныйКолумнистыВасилий Щепетнёв: Месть индейских вождей Автор: Василий ЩепетневКивино гнездо: Беззаконие роботехники Автор: Киви БердКафедра Ваннаха: Подарки и конструкции Автор: Михаил ВаннахАлександр Амзин: Силой данного мне природой мозга Автор: Александр АмзинВасилий Щепетнёв: Гимн усталому караулу Автор: Василий ЩепетневКивино гнездо: Беззаконие роботехники (окончание) Автор: Киви БердДмитрий Шабанов: Марков и Эволюция человека Автор: Дмитрий ШабановКафедра Ваннаха: Пришельцы на Луне Автор: Михаил ВаннахГолубятня-ОнлайнГолубятня: Даже гоблин ходит в отпуск Автор: Сергей ГолубицкийГолубятня: Железный парад 2011 Автор: Сергей Голубицкий.