Как быстро отсканировать книгу в формат PDF (используя ClearScan) - [3]

Шрифт
Интервал

Говорю так, потому что на самом деле принципиальных вариантов что делать с отсканированной книгой не так много. Можно просто оставить её в TIFF файлах. Кстати, эти файлы можно оставить в любом случае. Как уже было сказано, TIFF файлы — «набор» книги. Из них потом можно лепить другие форматы. Мне лень их хранить, но потом не раз я покусал локотки из-за того что оригиналов уже не было. Однако, TIFF файлы не удобны для обмена. Они занимают много места, и смотреть из надо в графическом редакторе.

Можно перевести книгу в текстовой формат — TXT, RTF, DOC наконец, или в HTML-ные и XML-ные EPUB и FB2. Но это — переиздать книжку заново. И возможно, потерять всё или часть оформления книжки при переиздании. Нужно ли это, если книжка уже издана? Конечно, решать вам. Если оформления немного, то можно и переиздать. А если много и его хочется сохранить? Да и просто не хочется терять время на переиздание? Тогда остаётся либо «хлопнуть» книгу в DJVU, либо в PDF (кто-то «хлопает» и в PowerPoint, но это уж, простите, «ваще»). Эти форматы как «маленькие TIFF-ы» — книжка остаётся в графическом формате, но занимает меньше места.

В теории, DJVU больше подходит для отсканированных книг чем PDF, так как файлы получаются меньше. Но на практике, PDF куда более распространён (это факт), а программы позволяющие читать PDF куда более привлекательны (это моё мнение) чем то что создано для DJVU, что для меня выбор был ясен даже до появления технологии ClearScan. А теперь-то уж….

Суть технологии ClearScan состоит в замене изображений букв на стадии OCR на настоящий шрифт. Этот шрифт не является каким-либо готовым (системным) шрифтом более-менее похожим на оригинальный шрифт, а специальным шрифтом изготавливаемым программой Acrobat «на лету» под конкретную букву текста.

В результате, вместо страницы книги в графическом формате, появляется страница с (почти) настоящим текстом, по форме (почти) таким же как и оригинальный.

Ссылка на статью на английском языке о технологии ClearScan:

• http://blogs.adobe.com/acrolaw/2009/05/better pdf ocr clearscan is smal/

Как сказано в этой статье и проверенно на практике, самые лучшие результаты получаются при высоком разрешении оригинала (600dpi) и отсутствии на оригинале побочных помех (мусора, артефактов). Поэтому процесс чистки изображения после сканера (выравнивание освещённости, очистка от мусора, поднятие разрешения до 600dpi) необходим для получения качественного текста и максимально маленького размера файла.

Где же взять Adobe Acrobat 9.0 и выше? В голове тут же начинает крутиться одно <нехорошее слово>. Но зачем мне учить вас нехорошим словам? Вы их знаете и без меня. Поэтому, как экзотический альтернативный способ, я придумал зайти на какой-нибудь аукцион, скажем E-bay, набрать adobe acrobat 9 pro и посмотреть можно ли получить то что хочется по разумной цене. Допустим — можно. И Acrobat у вас.

Запустив Acrobat, выбираем все TIFF-ы получившиеся после чистки. Для этого жмём на File ^ Combine ^ Merge Files into a Single PDF. Открывается окошко в котором мы

• справа вверху выбираем опцию Single PDF (она скорей всего и так выбрана)

• справа внизу, где видны три странички, выбираем самую большую страничку для лучшего качества

• Нажимаем Add Files ^ Add Files и добавляем все TIFF-ы. Чтобы добавить все файлы сразу, нажимаем мышкой на первый файл, потом держим клавишу Shift и нажимаем на последний файл. Нажимаем Combine Files и терпеливо ждём результата — одного файла в формате PDF.

4. OCR с опцией ClearScan

Это самая простая для нас ступень. Bo-первых, распознать текст (OCR) нужно для того, чтобы заменить изображения букв на шрифт (ClearScan). Во-вторых, если текст распознан, появляется возможность поиска по ключевым словам. Это удобно в учебниках, справочниках, да возможно и в художественной литературе. OCR не работает на сто процентов, и распознаёт текст не совсем верно. Но нам-то этого и не нужно. Мы не собираемся отделить этот распознанный текст от книги и опубликовать только его — это дело тех, кто выбрал текстовой формат. Аккуратность нам нужна только для поиска по ключевым словам, а для этой цели аккуратности OCR обычно хватает. Представьте себе какой-нибудь раздел в учебнике. Скажем, про постоянный ток. Сначала пойдёт заглавие — «постоянный ток». Потом определение постоянного тока. Потом свойства постоянного тока. Комбинация слов «постоянный ток» встретится в этом разделе много раз, и даже если OCR ошибётся однажды, второй случай употребления не останется незамеченным, и ваш поиск по ключевым словам «постоянный ток» приведёт в нужный раздел.

Что ж, запускаем OCR в том же Adobe Acrobat. Для этого делаем Document — OCR Text Recognition — Recognize Text Using OCR и в открывшимся окне нажимаем Edit в разделе Settings. Выбираем

• Primary OCR Language — надо указать основной язык документа

• PDF Output Style — ставим ClearScan

• Downsample Images — обычно можно Low (300dpi).

Ждём ещё терпеливей прежнего, а лучше идём отдыхать. На выходе получается искомый PDF. Найдите в нём какую-нибудь буковку и начните увеличивать. Эта буковка должна оставаться чёткой при любом увеличении.