Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность. Книга завершается финалом, связывающим воедино темы и сюжетные линии, исследуемые на протяжении всей истории. В целом, книга представляет собой увлекательное и наводящее на размышления чтение, которое исследует человеческий опыт уникальным и осмысленным образом.

Жанр: Программирование
Серии: -
Всего страниц: 4
ISBN: -
Год издания: Не установлен
Формат: Полный

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” читать онлайн бесплатно

Шрифт
Интервал

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”

Представленный Andy Spencer

5-ая Европейская Конференция Исследования и Продвинутой Технологии для Цифровых Библиотек

Дармштадт, Германия, 4-8 сентября 2001.

Многоязычные информационные ресурсы, состоящие из текстов на нескольких языках, которые трудно отразить одной 8-битовой системой кодирования, в настоящее время могут быть представлены схемой кодирования символов Unicode. Однако использование Unicode может привести к снижению точности системы Оптического Распознавания Символов (Optical Character Recognition) из-за наличия букв в разных алфавитах, изображаемых одинаково, но имеющих различную фонетическую нагрузку. Это ухудшение может существенно увеличить время необходимое для корректировки полученных текстов. Проект перевода в электронную форму двадцати летнего периода публикации “Летопись журнальных статей”, осуществляемый Цифровой библиотекой университета Индианы, представляет собой пример проекта библиотечной оцифровки многошрифтового информационного ресурса для кодировки которого был использован Unicode.

Спецификой данного проекта является использование нескольких шрифтов в рамках одного документа, обусловленное содержанием материалов, представленных в Летописи журнальных статей. Большинство электронно-текстовых документов, созданных в рамках библиотечных проектов оцифровки, содержат тексты, использующие один или два набора шрифтов. Для выполнения подобных задач обычно достаточно восьми-битовых систем кодирования, позволяющих отразить 256 символов. Данное количество возможных символов позволяет отразить заглавные и строчные буквы для более чем одного языка в пределах одной таблицы кодирования. В последние годы были разработаны различные 8-битовые таблицы кодирования для обмена и обработки информации, в диапазоне от основного латинского шрифта до различных комбинаций шрифтов или комбинированных символов. Таким образом одна таблица кодирования, например, может представлять текст на английском и русском языках таким образом, что символы английского языка находятся в нижнем конце цифрового ряда, а кириллические символы в верхнем. Такая восьми-битовая система кодирования приводит к использованию так называемой “ограниченной многоязычной” языковой поддержки [1]. Тем не менее 256 символов явно недостаточно для представления нескольких шрифтов в рамках одного документа. 

В каждом номере Летописи журнальных статей регистрируются публикации из различных областей знаний: науки об обществе, гуманитарные и точные науки, медицина, технология и промышленность, и так далее. В то время как основной объем текста “Летописи журнальных статей” использует русскую разновидность кириллического шрифта, во многих секциях точных наук библиографии присутствуют отдельные символы, слова и фразы латинского и греческого алфавита наряду с научными/математическими выражениями и формулами. В латинском шрифте встречающиеся повсюду в Летописи журнальных статей слова и фразы представляют собой комбинацию символов из западно-европейских таблиц кодировки (CP-1252, ISO- 8859-1) и восточноевропейских (CP-1250, ISO-8859-2). Например, ссылка на статью, напечатанную в советском журнале, представляющую собой перевод статьи опубликованной в другой стране, как правило содержит часть сведений относящихся к названию журнала, в котором опубликован оригинал статьи, на национальном языке. Большинство статей были первоначально опубликованы в журналах, издаваемых в странах бывшего СЭВ, однако есть также значительное число публикаций из стран Запада.  

В силу многошрифтовой специфики “Летописи журнальных статей” использование обычных кириллических наборов символов таких как CP-1251, KOI-8 или ISO-8859-5 было явно недостаточно. Для полного отражения содержания “Летописи журнальных статей” необходимо применение не только кириллического шрифта, но и основного латинского алфавита с западноевропейскими производными символами, а также восточноевропейских производных символов и греческого шрифта. Так, при избрании к примеру наборов символов Микрософт (таблиц кодирования) необходимо будет одновременно использовать как минимум следующие наборы символов: CP-1251, CP- 1252, CP-1250 и CP-1253. Если же избрать в качестве основы соответствующие наборы символов ISO, необходимо будет использовать символы ISO-8859-5, -1, -2, -7. Современные компьютерные web-брoузеры могут показывать только один набор символов, что очевидно неприемлемо для текстовых источников, использующих несколько различных шрифтов. В информационном источнике, содержащем относительно небольшое количество символов, не входящих в избранный базовый набор символов, возможны обходные приемы такие как вставки графических символов или ссылки на графические примитивы. Однако такие способы делают проблематичным компьютеризированный поиск по таким текстам. Существует более обширный набор символов, явившийся попыткой выйти за пределы лимита символов в 256 знаков, WGL-4 (Windows Glyph List 4), по сути объединяющий в себе таблицы кодирования Windows CP-1250, 1251, 1252, 1253 и 1254. Однако с учетом избрания Unicode специалистами Microsoft для Windows NT/2000 семейства операционных систем, WGL-4 в настоящее время используется редко [5].


Рекомендуем почитать
Чаша цикуты. Сократ

Новый роман известного писателя Анатолия Домбровского посвящён древнегреческому философу Сократу (469— 399 гг. до н. э.), чья жизнь заслуживает такого же внимания, как и его философия.


Адам нового мира. Джордано Бруно

Роман известного английского писателя Джека Линдсея рассказывает о знаменитом итальянском учёном, философе и поэте XV в. Джордано Бруно, обвинённом Инквизицией в ереси и сожжённом на костре.


Опасный горец

Лукан Маклауд — грозный шотландский воин — много лет пробыл в заточении. Наконец ему удалось вырваться на свободу, и теперь настало время для беспощадной мести врагам. Отныне Маклауда назовут дьяволом, демоном во плоти, и никому не удастся уйти от его карающего Меча.Никому, кроме прекрасной Кары, которую он похищает и держит пленницей в своем замке.Эта девушка — воплощенная мечта Лукана, сумевшая покорить его сердце и возродившая в нем давно угасшее пламя любви.


Вечное желание

Меган Делейси — простая продавщица в бутике модной мужской одежды, и к ним нередко заглядывают знаменитости. Но однажды Меган посетил довольно необычный покупатель. Темноглазый красавец Рис Костейн слишком таинственен. Он ничего не рассказывает о себе, не рассыпается в любезностях. А каждый его взгляд обжигает, словно пламя.Меган и не подозревает, что ходит по краю пропасти. Ведь Рис охотится за опасным убийцей, и если поддастся страсти к милой продавщице, поставит под удар не только себя, но и ее…


Изучаем Java EE 7

Java Enterprise Edition (Java EE) остается одной из ведущих технологий и платформ на основе Java. Данная книга представляет собой логичное пошаговое руководство, в котором подробно описаны многие спецификации и эталонные реализации Java EE 7. Работа с ними продемонстрирована на практических примерах. В этом фундаментальном издании также используется новейшая версия инструмента GlassFish, предназначенного для развертывания и администрирования примеров кода. Книга написана ведущим специалистом по обработке запросов на спецификацию Java EE, членом наблюдательного совета организации Java Community Process (JCP)


Pro Git

Разработчику часто требуется много сторонних инструментов, чтобы создавать и поддерживать проект. Система Git — один из таких инструментов и используется для контроля промежуточных версий вашего приложения, позволяя вам исправлять ошибки, откатывать к старой версии, разрабатывать проект в команде и сливать его потом. В книге вы узнаете об основах работы с Git: установка, ключевые команды, gitHub и многое другое.В книге рассматриваются следующие темы:основы Git;ветвление в Git;Git на сервере;распределённый Git;GitHub;инструменты Git;настройка Git;Git и другие системы контроля версий.


Java 7

Рассмотрено все необходимое для разработки, компиляции, отладки и запуска приложений Java. Изложены практические приемы использования как традиционных, так и новейших конструкций объектно-ориентированного языка Java, графической библиотеки классов Swing, расширенной библиотеки Java 2D, работа со звуком, печать, способы русификации программ. Приведено полное описание нововведений Java SE 7: двоичная запись чисел, строковые варианты разветвлений, "ромбовидный оператор", NIO2, новые средства многопоточности и др.


Фундаментальные алгоритмы и структуры данных в Delphi

Книга "Фундаментальные алгоритмы и структуры данных в Delphi" представляет собой уникальное учебное и справочное пособие по наиболее распространенным алгоритмам манипулирования данными, которые зарекомендовали себя как надежные и проверенные многими поколениями программистов. По данным журнала "Delphi Informant" за 2002 год, эта книга была признана сообществом разработчиков прикладных приложений на Delphi как «самая лучшая книга по практическому применению всех версий Delphi».В книге подробно рассматриваются базовые понятия алгоритмов и основополагающие структуры данных, алгоритмы сортировки, поиска, хеширования, синтаксического разбора, сжатия данных, а также многие другие темы, тесно связанные с прикладным программированием.


Питон — модули, пакеты, классы, экземпляры

Python - объектно-ориентированный язык сверхвысокого уровня. Python, в отличии от Java, не требует исключительно объектной ориентированности, но классы в Python так просто изучить и так удобно использовать, что даже новые и неискушенные пользователи быстро переходят на ОО-подход.


Как пасти котов. Наставление для программистов, руководящих другими программистами

«Как пасти котов» – это книга о лидерстве и руководстве, о том, как первое совмещать со вторым. Это, если хотите, словарь трудных случаев управления IT-проектами. Программист подобен кошке, которая гуляет сама по себе. Так уж исторически сложилось. Именно поэтому так непросто быть руководителем команды разработчиков. Даже если вы еще месяц назад были блестящим и дисциплинированным программистом и вдруг оказались в роли менеджера, вряд ли вы знаете, с чего надо начать, какой выбрать стиль руководства, как нанимать и увольнять сотрудников, проводить совещания, добиваться своевременного выполнения задач.