Перевод в электронный формат текста и создание сайта в Интернете "Летописи журнальных статей" советского периода (1956-1975 гг.) - [2]

Шрифт
Интервал

Комиссия приняла мое предложение, группа специалистов из университетской библиотечной системы подготовила и подала заявку в правительственное агентство. Мы также опросили библиотекарей- славистов со всей страны, одобряют ли они наше предложение, и к всеобщей радости и облегчению, большинство опрошенных специалистов подтвердили необходимость и полезность проекта. Успеху данного предприятия призваны способствовать следующие обстоятельства. Во-первых, в университете Индианы существует одна из крупнейших в США программа славянских исследований, история которой ведется с конца 1940-х годов, когда доктор Бернс основал систему целевого федерального финансирования программ изучения зарубежных стран в американских университетах, которая в настоящее время носит название Title IV. Данная программа обеспечивает деятельность Славянского института университета Индианы, который в настоящее время может предоставить нам квалифицированных специалистов, владеющих двумя языками, для работы по проекту. Во-вторых, Университетская библиотечная программа создала в своей структуре специальное подразделение, LETRS, для работы с электронными информационными ресурсами, в частности с электронными текстами литературного и музыкального содержания. Для работы по проекту предполагалось задействовать специалистов данного подразделения, умеющих переводить тексты в цифровой формат, производить кодировку этих текстов при помощи языков HTML и XML, и при необходимости создавать оригинальные программные системы. И в- третьих, библиотека университета Индианы имеет почти полную коллекцию Летописи. Предложение было принято, и мы получили грант на три года, предполагающий финансирование в объеме 80000 долларов в год с целью перевода в электронный вид Летописи журнальных статей за период в двадцать лет, XML- кодировки текста и помещения данной информации на сайте в Интернете. Пришло время действовать.

В результате ряда интервью для руководства проектом был приглашен г-н Эндрю Спенсер. Он объявил конкурс и проинтервьюировал 17 кандидатов, работа которых заключается в корректировании и кодировании текста. Предполагалось, что каждый из пяти отобранных человек будет работать двадцать часов в неделю. Нам не хватало выпусков за один год и один месяц из двадцатилетнего периода Летописи, подлежащего обработке, поэтому нам пришлось позаимствовать данные экземпляры в университете Иллинойса с условием, что мы предоставим им замену в обновленном виде в твердом переплете. Принимая во внимание финансовые и временные ограничения проекта, мы приняли решение передать часть работы, связанную с переводом текста в электронный формат, частной компании. Менеджер проекта, г-н Спенсер, установил контакт с семью компаниями, выслал им образцы материала, подлежащего обработке, и получил от них их варианты обработки текста с обоснованием стоимости работы.

В результате отбора было принято решение заключить контракт с компанией Northern Micrographics. Поскольку используемые технологии работы с бумажными оригиналами Летописи не позволяют привести их по окончании проекта в первоначальный вид, мы стараемся сохранить всю содержащуюся на них информацию в полном объеме. На сегодняшний день мы имеем первые восемьдесят тысяч страниц текста в электронном формате, и откорректированный электронный текст Летописи за один год. В ходе работы г-н Спенсер обучил пять сотрудников XML-кодированию текста.

Проблемы, связанные с данным проектом, многочисленны и сложны. Первая трудность заключалась в выборе метода сканирования, поскольку бумага, на которой напечатан текст Летописи, хрупкая и пожелтевшая. После нескольких проб было принято решение сканировать материал в двухтональном режиме, а не с 12-битовой серой шкалой изображения, что облегчило сканирование и сократило объем памяти, необходимой для сохранения файлов. В соответствии с этими параметрами мы разослали предложение подать заявки на участие в проекте на этапе сканирования семи компаниям. Очень скоро мы поняли, что необходимо поддерживать высокоинтенсивный режим работы, поскольку проект предполагает обработку приблизительно 250000 страниц обесцвеченного текста, напечатанного мелким шрифтом. Другая трудность состояла в обучении нанятых студентов без нарушения нормального режима их работы. Их работа требует большой тщательности и состоит во внимательном прочтении электронного изображения страниц текста, соответствие которых оригиналу после сканирования должно составлять 99,8 %, проверке соблюдения правил пунктуации, последовательности номеров ссылок, правильности дат выпуска периодических изданий и т. д. Компьютерная программа OCR (Оптического распознавания символов), рассчитанная на кириллицу, не справляется с такими специфическими проблемами как правильное прочтение математических символов, ссылок в разделах о флоре и фауне, насыщенных латинскими названиями. В числе прочих проблем следует упомянуть разгадывание многочисленных сокращений, используемых в библиографических ссылках, а также отличение слов с дефисом от случаев переноса части слова на следующую строку. Все упомянутые сложные случаи должны редактироваться вручную. Значительное количество ошибок при использовании OCR связано с низкой степенью точности распознавания этим программным продуктом случаев употребления греческих и кириллических букв.


Рекомендуем почитать
Установка и настройка Tor

Массовое распространение сети Интернет стало причиной начала тотальной слежки за ее пользователями и блокирования неугодных власти ресурсов. Естественно, что и провайдеров обязали сотрудничать с соответствующими органами. Как рядовому пользователю избежать этого безобразного произвола? Для решения проблемы предлагается система Tor. К сожалению, в настоящее время очень мало литературы по установке и использованию данной системы. Целью настоящей работы является восполнить имеющийся пробел и научить всех желающих безопасной деятельности в Интернет.


Спецификация CSS2

Курс построен по спецификации, которая определяет язык каскадных таблиц стилей CSS2.Данная спецификация поддерживает позиционирование содержимого, загружаемые шрифты, отображение таблиц, возможности интернационализации, автоматические счётчики и нумерацию и некоторые свойства, относящиеся к пользовательскому интерфейсу.


Google. Прорыв в духе времени

Эта книга – захватывающая история самой успешной Интернет-компании в мире. В последнее время финансовый результат деятельности Google Inc. превосходит даже самые смелые ожидания инвестиционных аналитиков.Целеустремленность, научный талант, творческий поиск, смелость и любовь к эксперименту основателей компании – бывшего москвича Сергея Брина и выходца из штата Мичиган Ларри Пейджа – проложили путь к долгосрочному успеху компании. Под их руководством поисковый механизм Google стал популярнейшим ресурсом, который пользователи любят за удобство и уже испытывают к нему сильную эмоциональную привязанность.


Даркнет: Война Голливуда против цифровой революции

«Даркнет» – это рассказ о цифровой революции в мире медиа. В битве между технологическим прогрессом и медиа-магнатами решается будущее кино, музыки, телевидения, компьютерных игр и Интернета. В этой книге вы найдете истории людей, оказавшихся в эпицентре битвы. «Даркнет» увлечет вас в тайный мир киноподполья, где бутлегеры и пираты скрываются от закона и Голливуда. Но не только в подполье делается цифровая революция: множеству приверженцев цифрового образа жизни, творцам фан-фикшн, диджеев, кинематографистам-любителям, пионерам телевидения нового поколения и разработчикам игр приходится противостоять могущественным силам, стремящимся сохранить статус-кво.


Противодействие черному PR в Интернете

Черный PR сегодня активно перемещается в Интернет. В свое время кольт сделал людей равными. Сегодня Интернет уравнял финансово сильных и слабых в медиапространстве. Глобальная сеть позволяет рядовому человеку разорить могущественную корпорацию. Маленькая компания может эффективно противостоять транснациональному монстру, не располагая никакими финансами. Умение отражать информационные атаки стало на редкость насущной проблемой для любого бизнеса.В этой книге показаны все необходимые для отражения информационного нападения в Интернет инструменты и раскрыты секреты их применения.


Полный Плющев. Интернет на каждый день

Очень скоро невозможно будет себе представить жизнь без Интернета, точно так же, как сейчас мы не понимаем, как это до конца 1990-х годов обходились без мобильного телефона. В этой книге рассказывается о том, как Интернет постепенно и не всегда заметно для нас меняет качество нашей жизни. Здесь собраны самые интересные и полезные находки, которые были сделаны автором за многолетнюю карьеру интернет-обозревателя. Это не просто интересные идеи, а сервисы, которые могут пригодиться в работе, личной жизни, быту и при общении с другими людьми, а также способствовать духовному развитию.