Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” - [4]

Шрифт

Интервал

Проект “Летопись журнальных статей” имел определенные преимущества, поскольку практически весь объем текста на кириллице был русским, и мы имели возможность задать конфигурацию системы OCR с целью распознавания только тех символов кириллицы, которые принадлежат к русскому языку. Это позволило исключить еще несколько символов, имеющих изображение, похожее на латинские буквы, например, J (U+0408) и S (U+0405), используемые в сербской разновидности кириллицы.

Для будущих проектов перевода в электронный формат с использованием нескольких наборов шрифтов важным этапом планирования будет правильное определение набора шрифтов, необходимых для включения в стадию OCR при реализации проекта. Чем меньше количество наборов шрифтов в задаваемых параметрах распознавания, тем меньше количество возможных комбинаций идентичных или похожих символов, которые OCR может распознать неправильно. По нашим оценкам наличие в “Летописи журнальных статей” шрифтов помимо русского алфавита, являющегося разновидностью кириллицы, и как следствие данной установки уменьшение точности OCR, втрое увеличивает количество времени, необходимое для корректирования текстов на выходе из системы OCR по сравнению с результатом, получаемым при указании в параметрах распознавания исключительно русского текста.

По мере развития проектов электронных библиотек от текстов с одним или максимум двумя языками в многоязыковом направлении вероятно расширение использования программного продукта Unicode для целей кодирования. В ближайшее время вероятно увеличение степени соответствия стандарту Unicode простых текстовых редакторов, редакторов XML и поисковых систем XML. Как следствие, выбор программного обеспечения для работы с текстами Unicode не будет требовать столь интенсивного тестирования. Тем не менее, Unicode по-прежнему представляет определенные проблемы для нынешнего поколения системы Оптического Распознавания Символов (OCR), которые не возникают при использовании традиционной восьми- битовой системы кодирования и, как следствие, строго ограниченных наборов шрифтов. Таким образом, использование Unicode в ситуациях, где достоинства данного продукта проявляются наиболее полно (многоязыковые тексты), одновременно порождает наибольшее количество проблем в плане точности распознавания. Вероятность подмены похожих символов, принадлежащих к разным наборам шрифтов, порождает возможные серьезные последствия в отношении точности OCR и в особенности точности и полноты наборов результатов, выдаваемых поисковыми системами. Использование Unicode при работе с некоторыми информационными ресурсами стало необходимостью в случае многоязыковых документов. Тем не менее, усложнение использования Uniсode в сочетании с описанными в данном докладе типами проблемных ситуаций следует принимать во внимание на стадиях планирования каждого проекта, который предполагает в будущем использование набора символов Unicode.

Источники:

[1] Адамс, Гленн. Введение в Unicode. Кембридж, Масс.: Институт передовых профессиональных исследований, 1994, стр. 5

[2] Адамс, Гленн. Введение в Unicode. Кембридж, Масс.: Институт передовых профессиональных исследований, 1994, стр. 25

[3] http://www.dlib.indiana.edu

[4] http://webapp1.dlib.indiana.edu/letopis/index.jsp?lang=ru

[5] http://www.fontlab.com/ta_tt_t1.htm#National Language Support & WGL4

[6] http://www.unicode.org/unicode/standard/principles.html

[7] http://www.w3c.org/International/O-charset-lang.html

[8] Родригес, Майкл. Кодирование символов в XML и Perl., стр. 1

[9] Стандарт Unicode: Версия 3.0. Чтение, Масс.: Эддисон-Весли, 2000. стр. 2

Цитата:

Spencer, George Andrew. Digitization, Coded Character Sets, and Optical Character Recognition for Multi-script Information Resources: The Case of the Letopis' Zhurnal'nykh Statei 5th European Conference on Research and Advanced Technology for Digital Libraries (September 2001).

Перевод:

Переведенный с Английского языка Natalia Rome-Lindval

Рекомендуем почитать

Скотт Чакон

Pro Git

Разработчику часто требуется много сторонних инструментов, чтобы создавать и поддерживать проект. Система Git — один из таких инструментов и используется для контроля промежуточных версий вашего приложения, позволяя вам исправлять ошибки, откатывать к старой версии, разрабатывать проект в команде и сливать его потом. В книге вы узнаете об основах работы с Git: установка, ключевые команды, gitHub и многое другое.В книге рассматриваются следующие темы:основы Git;ветвление в Git;Git на сервере;распределённый Git;GitHub;инструменты Git;настройка Git;Git и другие системы контроля версий.

Ильдар Хабибуллин

Java 7

Рассмотрено все необходимое для разработки, компиляции, отладки и запуска приложений Java. Изложены практические приемы использования как традиционных, так и новейших конструкций объектно-ориентированного языка Java, графической библиотеки классов Swing, расширенной библиотеки Java 2D, работа со звуком, печать, способы русификации программ. Приведено полное описание нововведений Java SE 7: двоичная запись чисел, строковые варианты разветвлений, "ромбовидный оператор", NIO2, новые средства многопоточности и др.

Неизвестный Автор

MFC и OpenGL

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.

П Кузнецов

Симуляция частичной специализации

Александр Клюев

Обработка событий в С++

Олег Бройтман

Питон — модули, пакеты, классы, экземпляры

Python - объектно-ориентированный язык сверхвысокого уровня. Python, в отличии от Java, не требует исключительно объектной ориентированности, но классы в Python так просто изучить и так удобно использовать, что даже новые и неискушенные пользователи быстро переходят на ОО-подход.