Как почистить сканы книг и сделать книгу

В статье описана очистка сканов книг непосредственно после сканирования, перед дальнейшей обработкой. Речь будет идти только о черно-белых книгах (текст и штриховые рисунки). Обработку книг с цветными картинками нужно разбирать отдельно. Способы обработки сканов ScanKromsator.

Жанр:	Программирование
Серии:	-
Всего страниц:	8
ISBN:	-
Год издания:	Не установлен
Формат:	Полный

Как почистить сканы книг и сделать книгу читать онлайн бесплатно

Шрифт

Интервал

Часть 1.

А зачем?

Здесь есть 2 пути:

После сканирования книги её предполагается выкладывать в сеть (или хранить у себя на диске).

1) Можно распознать сканы в программе OCR, например FineReader (FR).

Если качество оригинала хорошее, например распечатка на лазернике с размером шрифта 12pt, то FR прекрасно распознает её без всяких дополнительных мер. Но вот если распознавать нужно старую книжку, на желтой неровной бумаге, грязную и т. п… Тут предварительная очистка резко повысит качество распознавания, а это значит, что гораздо меньше труда и времени уйдет на вычитку, т.е. ручное исправление ошибок. Надо сказать, что встроенные в FR средства очистки картинки довольно примитивные, так что с плохими, зашумленными сканами он справляется неважно.

2) Можно хранить нераспознанной, в виде растровой картинки, в том или ином формате: DJVU, PDF, TIFF.

Здесь предварительная очистка ещё уместнее. Во-первых, очищенный скан гораздо приятнее и не так утомительно читать. Во-вторых, что ещё важнее, после очистки сканы гораздо, в десятки раз, лучше сжимаются в любой формат. Дело в том, что случайные точки на изображении (шум) практически не сжимаемы, особенно когда их много.

Для очистки изображений применяется много различных методов и программ, порой стоимостью в тысячи и десятки тысяч долларов. Я опишу простой и доступный способ, особенно ценный тем, что руками придется работать только с одной страницей книги, остальные можно обработать автоматически, основываясь на сохраненных параметрах.

1-й этап: сканирование

Сканировать книжку нужно обязательно в режиме grayscale (серый). Обратите внимание: сканировать в режиме b/w (черно-белый) нельзя! В режиме b/w дальнейшая обработка будет невозможна.

Можно сканировать в true image (полноцвет), но это сильно замедлит обработку, увеличит объем файлов, а особенного выигрыша не даст. Исключение составляют случаи, когда на страницах есть цветные пятна грязи, тут работа с цветом может сильно помочь.

Некоторые сканеры позволяют выбрать один из цветовых каналов (красный, зеленый, синий), который будет использоваться при сканировании в серый, есть и другие настройки и их также можно покрутить. Но не увлекайтесь, большая часть фич сканера просто обработка картинки драйвером. То же самое можно сделать в фотошопе, только куда лучше.

Попробуйте разные варианты, выбирать нужно тот, где изображение контрастнее, буквы выглядят более четкими. Если при этом мелких шумов (например, фактура бумаги) будет, в разумных пределах, больше – это неважно, уберем потом.

Наоборот, если на бумаге есть крупные, размером в 2-3 буквы и больше, пятна, то нужно постараться подобрать настройки сканера так, чтобы эти пятна были бледными, по сравнению с буквами, пусть и ценой менее контрастных, по сравнению с другими вариантами букв.

Проще говоря, настраивайте сканер так:

1) Если крупных пятен нет, то главное сделать четкими буквы, а на шум особенно не глядеть.

2) Если крупные пятна есть, то главное их прибить, даже если буквы будут не такие уж четкие.

В том и другом случае нужно не перебарщивать, руководствуясь опытом и здравым смыслом.

Если вы пользуетесь для сканирования FR, то уберите в опциях сканирования «Очистить изображение», «Устранить искажение строк», «Делить развороты». Всё это вы сделаете потом, когда почистите сканы и втяните их обратно в FR. На этом этапе любая обработка изображения в FR только замедлит сканирование и ухудшит чистку изображения в более подходящих программах.

О выборе разрешения скана.

Обычно книжки с текстом сканируют с разрешением 300dpi. Это подходящее значение для чистого текста, приличного качества полиграфии и не слишком мелкого шрифта, короче очередной бестселлер типа: "Глухой против Слепого". Но в этом случае и чистка изображения не требуется. При зашумленном изображении, мелком шрифте нужно сканировать с разрешением 600dpi. Это сильно облегчит очистку и качество окончательного файла, если вы не будете распознавать книгу, а сохраните в виде сжатого растра. Не беспокойтесь о величине окончательного файла. Хорошо почищенная книга с разрешением 600dpi при сжатии в DJVU дает файл немногим больших размеров, чем с разрешением 300dpi.

Растровая форма хранения книг особенно часто применяется для книг с формулами. В этом случае сканирование с разрешением 600dpi обязательно, иначе трудно будет разобрать индексы в формулах, отличить похожие буквы, например "омега" и w. А ведь в математике нередки вложенные индексы (индекс индекса). Там при сканировании с разрешением 300dpi вообще трудно что-либо разобрать, тем более распечатать. Вот смотрите:

Буквы i и j на картинке слева трудно отличить друг от друга. А ведь это не скан, а печать в файл. При сканировании всё будет гораздо хуже – маленькая точка на бумаге и всё, и 2 балла на экзамене!

Таким образом:

Сканировать для наших целей нужно с разрешением 600dpi!

В крайнем случае, 400dpi.

Теперь нужно выбрать образцовую страницу для настройки программ обработки, чтобы остальные обработать автоматически, в пакетном режиме. Выберите самую обычную, типовую страницу, может быть слегка более грязную, чем в среднем.

Продолжить чтение

Рекомендуем почитать

Альберт Иванов

Король дзюдо

Героев этих повестей отличает любовь к приключениям.Михаил Енохин и его друзья своими руками сооружают парусную шлюпку, чтобы отправиться на ней в дальнее плавание. И хотя все их приключения происходят пока на суше, становится ясно: им удастся осуществить свою мечту.Во второй повести описываются приключения семиклассников, увлекшихся борьбой дзюдо. В столкновении с преступником, появившимся в их маленьком городке, по-разному проявляются характеры ребят.Для среднего школьного возраста.

Эрик Эмблер

Эпитафия шпиону. Причина для тревоги

Почему романы Эрика Эмблера так популярны?Почему они неподвластны времени и даже сейчас, спустя более полувека после написания, читаются с неослабевающим интересом?Дело не столько в стиле этих произведений, сколько в необычности их героев. Они — не «Джеймсы Бонды», не супермены, не супершпионы и зачастую даже не профессиональные разведчики, а самые обычные люди, которым довелось жить в эпоху предвоенного десятилетия.Одни действительно работают на спецслужбы, другие — просто оказываются случайными участниками Большой игры.

Мирза Ахундов

Адвокаты города Тебриз

В однотомник выдающегося азербайджанского писателя вошли его комедии.

Анхель де Куатьэ

Сердце ангела

Последняя книга Анхеля де Куатьэ! Тайна Апокалипсиса открылась... Бог дает людям шанс. Снова и снова. Но всякий раз человек ищет «легкие пути»... Словно не знает, что грех — это не нарушение запретов. Грех — это неисполнение заветов, того, что должно. Прежде чем обрушить свой гнев на людей, Господь посылает на землю своего Ангела. «И пришел иный Ангел, и встал пред жертвенником...» Ангел Божий приходит в человеческом обличье, чтобы вглядеться в наши сердца. И ответом Богу будет сердце Ангела, узнавшего тайну наших сердец..

Иван Задворьев

Язык PL/SQL

В учебно-методическом пособии рассматриваются основы языка программирования PL/SQL, реализованного в системе управления базами данных Oracle Database Server. Приводятся сведения о поддерживаемых типах данных, структуре программ PL/SQL и выполнении SQL-предложений в них. Отдельно рассмотрено создание хранимых в базах данных Oracle программ PL/SQL – процедур, функций, пакетов и триггеров.

Неизвестный Автор

Пишем драйвер Windows на ассемблере

В книге рассказывается история главного героя, который сталкивается с различными проблемами и препятствиями на протяжении всего своего путешествия. По пути он встречает множество второстепенных персонажей, которые играют важные роли в истории. Благодаря опыту главного героя книга исследует такие темы, как любовь, потеря, надежда и стойкость. По мере того, как главный герой преодолевает свои трудности, он усваивает ценные уроки жизни и растет как личность.

Эндрю Троелсен

Язык программирования С# 2005 и платформа .NET 2.0.

В этой книге содержится описание базовых принципов функционирования платформы .NET, системы типов .NET и различных инструментальных средств разработки, используемых при создании приложений .NET. Представлены базовые возможности языка программирования C# 2005, включая новые синтаксические конструкции, появившиеся с выходом .NET 2.0, а также синтаксис и семантика языка CIL. В книге рассматривается формат сборок .NET, библиотеки базовых классов .NET. файловый ввод-вывод, возможности удаленного доступа, конструкция приложений Windows Forms, доступ к базам данных с помощью ADO.NET, создание Web-приложений ASP.NET и Web-служб XML.

Михаил Гусаров

Вариации на тему STL. Адаптер обобщенного указателя на функцию-член класса

ГОСТ

Информационная технология. Руководство по управлению документированием программного обеспечения

ГОСУДАРСТВЕННЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИИнформационная технологияРУКОВОДСТВО ПО УПРАВЛЕНИЮ ДОКУМЕНТИРОВАНИЕМ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯInformation technology. Guidelines for the management of software documentationИздание официальноеДата введения 1994-07-01ГОССТАНДАРТ РОССИИ Москва© Издательство стандартов, 1994.

Александр Леоненков

Самоучитель UML

Самоучитель UMLПервое издание.В книге рассматриваются основы UML – унифицированного языка моделирования для описания, визуализации и документирования объектно-ориентированных систем и бизнес-процессов в ходе разработки программных приложений. Подробно описываются базовые понятия UML, необходимые для построения объектно-ориентированной модели системы с использованием графической нотации. Изложение сопровождается примерами разработки отдельных диаграмм, которые необходимы для представления информационной модели системы.