Перевод в электронный формат текста и создание сайта в Интернете "Летописи журнальных статей" советского периода (1956-1975 гг.) - [2]
Комиссия приняла мое предложение, группа специалистов из университетской библиотечной системы подготовила и подала заявку в правительственное агентство. Мы также опросили библиотекарей- славистов со всей страны, одобряют ли они наше предложение, и к всеобщей радости и облегчению, большинство опрошенных специалистов подтвердили необходимость и полезность проекта. Успеху данного предприятия призваны способствовать следующие обстоятельства. Во-первых, в университете Индианы существует одна из крупнейших в США программа славянских исследований, история которой ведется с конца 1940-х годов, когда доктор Бернс основал систему целевого федерального финансирования программ изучения зарубежных стран в американских университетах, которая в настоящее время носит название Title IV. Данная программа обеспечивает деятельность Славянского института университета Индианы, который в настоящее время может предоставить нам квалифицированных специалистов, владеющих двумя языками, для работы по проекту. Во-вторых, Университетская библиотечная программа создала в своей структуре специальное подразделение, LETRS, для работы с электронными информационными ресурсами, в частности с электронными текстами литературного и музыкального содержания. Для работы по проекту предполагалось задействовать специалистов данного подразделения, умеющих переводить тексты в цифровой формат, производить кодировку этих текстов при помощи языков HTML и XML, и при необходимости создавать оригинальные программные системы. И в- третьих, библиотека университета Индианы имеет почти полную коллекцию Летописи. Предложение было принято, и мы получили грант на три года, предполагающий финансирование в объеме 80000 долларов в год с целью перевода в электронный вид Летописи журнальных статей за период в двадцать лет, XML- кодировки текста и помещения данной информации на сайте в Интернете. Пришло время действовать.
В результате ряда интервью для руководства проектом был приглашен г-н Эндрю Спенсер. Он объявил конкурс и проинтервьюировал 17 кандидатов, работа которых заключается в корректировании и кодировании текста. Предполагалось, что каждый из пяти отобранных человек будет работать двадцать часов в неделю. Нам не хватало выпусков за один год и один месяц из двадцатилетнего периода Летописи, подлежащего обработке, поэтому нам пришлось позаимствовать данные экземпляры в университете Иллинойса с условием, что мы предоставим им замену в обновленном виде в твердом переплете. Принимая во внимание финансовые и временные ограничения проекта, мы приняли решение передать часть работы, связанную с переводом текста в электронный формат, частной компании. Менеджер проекта, г-н Спенсер, установил контакт с семью компаниями, выслал им образцы материала, подлежащего обработке, и получил от них их варианты обработки текста с обоснованием стоимости работы.
В результате отбора было принято решение заключить контракт с компанией Northern Micrographics. Поскольку используемые технологии работы с бумажными оригиналами Летописи не позволяют привести их по окончании проекта в первоначальный вид, мы стараемся сохранить всю содержащуюся на них информацию в полном объеме. На сегодняшний день мы имеем первые восемьдесят тысяч страниц текста в электронном формате, и откорректированный электронный текст Летописи за один год. В ходе работы г-н Спенсер обучил пять сотрудников XML-кодированию текста.
Проблемы, связанные с данным проектом, многочисленны и сложны. Первая трудность заключалась в выборе метода сканирования, поскольку бумага, на которой напечатан текст Летописи, хрупкая и пожелтевшая. После нескольких проб было принято решение сканировать материал в двухтональном режиме, а не с 12-битовой серой шкалой изображения, что облегчило сканирование и сократило объем памяти, необходимой для сохранения файлов. В соответствии с этими параметрами мы разослали предложение подать заявки на участие в проекте на этапе сканирования семи компаниям. Очень скоро мы поняли, что необходимо поддерживать высокоинтенсивный режим работы, поскольку проект предполагает обработку приблизительно 250000 страниц обесцвеченного текста, напечатанного мелким шрифтом. Другая трудность состояла в обучении нанятых студентов без нарушения нормального режима их работы. Их работа требует большой тщательности и состоит во внимательном прочтении электронного изображения страниц текста, соответствие которых оригиналу после сканирования должно составлять 99,8 %, проверке соблюдения правил пунктуации, последовательности номеров ссылок, правильности дат выпуска периодических изданий и т. д. Компьютерная программа OCR (Оптического распознавания символов), рассчитанная на кириллицу, не справляется с такими специфическими проблемами как правильное прочтение математических символов, ссылок в разделах о флоре и фауне, насыщенных латинскими названиями. В числе прочих проблем следует упомянуть разгадывание многочисленных сокращений, используемых в библиографических ссылках, а также отличение слов с дефисом от случаев переноса части слова на следующую строку. Все упомянутые сложные случаи должны редактироваться вручную. Значительное количество ошибок при использовании OCR связано с низкой степенью точности распознавания этим программным продуктом случаев употребления греческих и кириллических букв.
Автор предлагает бесплатную, проверенную на практике, супернадежную и эффективную комплексную защиту от вирусов, шпионских программ, вторжения любопытных хакеров — любых попыток несанкционированного вторжения в ваш компьютер.Пользуясь советами автора, вы сможете не только выстроить надежную систему безопасности, но и контролировать те сайты, которые посещают ваши дети, а также без проблем восстановить операционную систему после любого сбоя и даже полного обрушения. Книга станет настольным пособием и у продвинутых пользователей, и у чайников благодаря простому и краткому изложению материала с подробными иллюстрациями каждого шага.
Что такое блог, сегодня знает каждый или практически каждый пользователь Интернета. И судя по стремительно возрастающему количеству блогов в Сети, для многих блогинг — достаточно серьезное увлечение. Но далеко не каждый знает, что это увлечение вполне может быть очень прибыльным. Как «заставить» блог приносить деньги? Как создать и раскрутить свой блог? Как выбрать целевую аудиторию и тематику? Ответы на эти и многие другие вопросы вы найдете в практическом руководстве Евгения Литвина.Откройте для себя профессиональные секреты успеха, узнайте, как хобби может приносить прибыль!
Рассказывается о ведущем поисковом ресурсе российской части Интернета — Яндексе. Описаны его сервисы для поиска документов и новостей, блогов и адресов, товаров и музыкальных произведений. Рассмотрены почтовый сервис и сервис для создания и размещения сайтов на Народ. ру. Читатель узнает о том, что такое "электронные деньги" и как с их помощью оплатить товар. Большое внимание уделяется общедоступным поисковым программам, которые Яндекс предлагает своим посетителям для поиска информации не только на сайтах, но и на своем компьютере.
Эта книга – захватывающая история самой успешной Интернет-компании в мире. В последнее время финансовый результат деятельности Google Inc. превосходит даже самые смелые ожидания инвестиционных аналитиков.Целеустремленность, научный талант, творческий поиск, смелость и любовь к эксперименту основателей компании – бывшего москвича Сергея Брина и выходца из штата Мичиган Ларри Пейджа – проложили путь к долгосрочному успеху компании. Под их руководством поисковый механизм Google стал популярнейшим ресурсом, который пользователи любят за удобство и уже испытывают к нему сильную эмоциональную привязанность.
«Даркнет» – это рассказ о цифровой революции в мире медиа. В битве между технологическим прогрессом и медиа-магнатами решается будущее кино, музыки, телевидения, компьютерных игр и Интернета. В этой книге вы найдете истории людей, оказавшихся в эпицентре битвы. «Даркнет» увлечет вас в тайный мир киноподполья, где бутлегеры и пираты скрываются от закона и Голливуда. Но не только в подполье делается цифровая революция: множеству приверженцев цифрового образа жизни, творцам фан-фикшн, диджеев, кинематографистам-любителям, пионерам телевидения нового поколения и разработчикам игр приходится противостоять могущественным силам, стремящимся сохранить статус-кво.
В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.