Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” - [4]

Шрифт
Интервал

Проект “Летопись журнальных статей” имел определенные преимущества, поскольку практически весь объем текста на кириллице был русским, и мы имели возможность задать конфигурацию системы OCR с целью распознавания только тех символов кириллицы, которые принадлежат к русскому языку. Это позволило исключить еще несколько символов, имеющих изображение, похожее на латинские буквы, например, J (U+0408) и S (U+0405), используемые в сербской разновидности кириллицы.

Для будущих проектов перевода в электронный формат с использованием нескольких наборов шрифтов важным этапом планирования будет правильное определение набора шрифтов, необходимых для включения в стадию OCR при реализации проекта. Чем меньше количество наборов шрифтов в задаваемых параметрах распознавания, тем меньше количество возможных комбинаций идентичных или похожих символов, которые OCR может распознать неправильно. По нашим оценкам наличие в “Летописи журнальных статей” шрифтов помимо русского алфавита, являющегося разновидностью кириллицы, и как следствие данной установки уменьшение точности OCR, втрое увеличивает количество времени, необходимое для корректирования текстов на выходе из системы OCR по сравнению с результатом, получаемым при указании в параметрах распознавания исключительно русского текста.

По мере развития проектов электронных библиотек от текстов с одним или максимум двумя языками в многоязыковом направлении вероятно расширение использования программного продукта Unicode для целей кодирования. В ближайшее время вероятно увеличение степени соответствия стандарту Unicode простых текстовых редакторов, редакторов XML и поисковых систем XML. Как следствие, выбор программного обеспечения для работы с текстами Unicode не будет требовать столь интенсивного тестирования. Тем не менее, Unicode по-прежнему представляет определенные проблемы для нынешнего поколения системы Оптического Распознавания Символов (OCR), которые не возникают при использовании традиционной восьми- битовой системы кодирования и, как следствие, строго ограниченных наборов шрифтов. Таким образом, использование Unicode в ситуациях, где достоинства данного продукта проявляются наиболее полно (многоязыковые тексты), одновременно порождает наибольшее количество проблем в плане точности распознавания. Вероятность подмены похожих символов, принадлежащих к разным наборам шрифтов, порождает возможные серьезные последствия в отношении точности OCR и в особенности точности и полноты наборов результатов, выдаваемых поисковыми системами. Использование Unicode при работе с некоторыми информационными ресурсами стало необходимостью в случае многоязыковых документов. Тем не менее, усложнение использования Uniсode в сочетании с описанными в данном докладе типами проблемных ситуаций следует принимать во внимание на стадиях планирования каждого проекта, который предполагает в будущем использование набора символов Unicode.


Источники:

[1] Адамс, Гленн. Введение в Unicode. Кембридж, Масс.: Институт передовых профессиональных исследований, 1994, стр. 5

[2] Адамс, Гленн. Введение в Unicode. Кембридж, Масс.: Институт передовых профессиональных исследований, 1994, стр. 25

[3] http://www.dlib.indiana.edu

[4] http://webapp1.dlib.indiana.edu/letopis/index.jsp?lang=ru

[5] http://www.fontlab.com/ta_tt_t1.htm#National Language Support & WGL4

[6] http://www.unicode.org/unicode/standard/principles.html

[7] http://www.w3c.org/International/O-charset-lang.html

[8] Родригес, Майкл. Кодирование символов в XML и Perl., стр. 1

[9] Стандарт Unicode: Версия 3.0. Чтение, Масс.: Эддисон-Весли, 2000. стр. 2

Цитата:

Spencer, George Andrew. Digitization, Coded Character Sets, and Optical Character Recognition for Multi-script Information Resources: The Case of the Letopis' Zhurnal'nykh Statei 5th European Conference on Research and Advanced Technology for Digital Libraries (September 2001).

Перевод:

Переведенный с Английского языка Natalia Rome-Lindval


Рекомендуем почитать
Изучаем Java EE 7

Java Enterprise Edition (Java EE) остается одной из ведущих технологий и платформ на основе Java. Данная книга представляет собой логичное пошаговое руководство, в котором подробно описаны многие спецификации и эталонные реализации Java EE 7. Работа с ними продемонстрирована на практических примерах. В этом фундаментальном издании также используется новейшая версия инструмента GlassFish, предназначенного для развертывания и администрирования примеров кода. Книга написана ведущим специалистом по обработке запросов на спецификацию Java EE, членом наблюдательного совета организации Java Community Process (JCP)


Pro Git

Разработчику часто требуется много сторонних инструментов, чтобы создавать и поддерживать проект. Система Git — один из таких инструментов и используется для контроля промежуточных версий вашего приложения, позволяя вам исправлять ошибки, откатывать к старой версии, разрабатывать проект в команде и сливать его потом. В книге вы узнаете об основах работы с Git: установка, ключевые команды, gitHub и многое другое.В книге рассматриваются следующие темы:основы Git;ветвление в Git;Git на сервере;распределённый Git;GitHub;инструменты Git;настройка Git;Git и другие системы контроля версий.


Java 7

Рассмотрено все необходимое для разработки, компиляции, отладки и запуска приложений Java. Изложены практические приемы использования как традиционных, так и новейших конструкций объектно-ориентированного языка Java, графической библиотеки классов Swing, расширенной библиотеки Java 2D, работа со звуком, печать, способы русификации программ. Приведено полное описание нововведений Java SE 7: двоичная запись чисел, строковые варианты разветвлений, "ромбовидный оператор", NIO2, новые средства многопоточности и др.


Фундаментальные алгоритмы и структуры данных в Delphi

Книга "Фундаментальные алгоритмы и структуры данных в Delphi" представляет собой уникальное учебное и справочное пособие по наиболее распространенным алгоритмам манипулирования данными, которые зарекомендовали себя как надежные и проверенные многими поколениями программистов. По данным журнала "Delphi Informant" за 2002 год, эта книга была признана сообществом разработчиков прикладных приложений на Delphi как «самая лучшая книга по практическому применению всех версий Delphi».В книге подробно рассматриваются базовые понятия алгоритмов и основополагающие структуры данных, алгоритмы сортировки, поиска, хеширования, синтаксического разбора, сжатия данных, а также многие другие темы, тесно связанные с прикладным программированием.


Питон — модули, пакеты, классы, экземпляры

Python - объектно-ориентированный язык сверхвысокого уровня. Python, в отличии от Java, не требует исключительно объектной ориентированности, но классы в Python так просто изучить и так удобно использовать, что даже новые и неискушенные пользователи быстро переходят на ОО-подход.


Как пасти котов. Наставление для программистов, руководящих другими программистами

«Как пасти котов» – это книга о лидерстве и руководстве, о том, как первое совмещать со вторым. Это, если хотите, словарь трудных случаев управления IT-проектами. Программист подобен кошке, которая гуляет сама по себе. Так уж исторически сложилось. Именно поэтому так непросто быть руководителем команды разработчиков. Даже если вы еще месяц назад были блестящим и дисциплинированным программистом и вдруг оказались в роли менеджера, вряд ли вы знаете, с чего надо начать, какой выбрать стиль руководства, как нанимать и увольнять сотрудников, проводить совещания, добиваться своевременного выполнения задач.