Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро - [8]

Шрифт
Интервал


Все сказанное заставляет подумать, что DjVu — идеальный формат для электронных книг. В целом это недалеко от истины. При обработке сканов обычных черно-белых книг, таблиц и справочников с относительно небольшим количеством иллюстраций и вклеек DjVu настолько сильно выигрывает в размере и качестве файла у PDF, что применять последний становится бессмысленно.

Совсем иная картина при сохранении широкоформатных журналов, детских богато иллюстрированных книг и разнообразных фотокаталогов и альбомов.

Здесь обилие полноцветной графики высокого разрешения нивелирует все достоинства JBIG (поскольку в факторе сжатия сложных изображений он существенно проигрывает JPEG). Кроме того, попытки кодера DjVu понизить цветность отдельных участков изображения при его сохранении — крайне отрицательно сказываются на качестве.

Собственно в моей практике было всего два случая, когда DjVu проиграл PDF. Оба раза это были книги с большим количеством иллюстраций — «Петрович и Патапум» и фотокаталог деталей для завода. На них DjVu все-таки дал более чем двухкратный выигрыш в размере по сравнению с PDF, но при этом проиграл в качестве на два порядка, и был забракован.

Собственно, общие рекомендации по выбору формата сохранения могу дать следующие:

• Для сохранения подавляющего большинства художественной и научной литературы, таблиц и справочников, альбомов чертежей и атласов — ничего лучше, чем формат DjVu на сей момент не существует;

• Для сохранения полноформатных иллюстрированных детских книг, комиксов, альбомов по искусству, цветных фотокаталогов — стоит применить формат PDF, тем паче, что такие издания обычно на мобильных устройствах не просматриваются.

4.2 Сохранение в формат PDF

Сохранение в формат PDF я лично предпочитаю выполнять в FineReader, с небольшой финишной обработкой в Adobe Acrobat. Если текст распознан без большого количества грубых ошибок — PDF-кодер Ридера выдает вполне приемлемые результаты. Но с настройками сохранения, выставленными в программе по умолчанию — вы будете сильно разочарованы качеством графики. Поэтому, прежде чем выдать программе команду на сохранение файла — я обязательно захожу в диалог настройки пакета FineReader, жму на вкладке Сохранение кнопку Форматы — и выставляю опции на вкладке PDF:



При показанных настройках рост размера сохраняемого файла составляет примерно 10–25 % но сравнению с настройками по умолчанию. Качество же графики растет на порядок, поэтому скупиться себе дороже. Выставив настройки, можно смело сохранять все распознанные страницы в один файл.

Единственная беда полученного файла — отсутствие оглавления. В принципе, для детской книжки или комикса это можно пережить, но вот в случае фотокаталога или альбома по искусству создать оглавление придется, чтобы потом не возиться с текстовым поиском. Для этого лучше всего обзавестись Adobe Acrobat какой-нибудь старой версии, вроде 7.0 — все задачи по созданию оглавления он решит отлично.

Создать оглавление в Adobe Acrobat очень просто. Найдя начало нового раздела, нужно скопировать текст его заголовка из рабочего поля, а потом щелкнуть на кнопке с «солнышком» на панели закладок, как она выглядит на рисунке. Появится свежая закладка на текущую страницу. Название новой закладки вводится таким же образом, как имя файла в «Проводнике» Windows. После того, как все закладки созданы, их можно с помощью простого перетаскивания распределить по уровням вложенности (разделы и подразделы).

Сохранив файл в последний раз, вы получите готовую электронную книгу.


4.3 Сохранение в формат DjVu

Для сохранения в формат DjVu понадобится программное обеспечение, работающее с этим форматом. Конкретно это:

• Специализированный DjVu-кодер LizardTech Document Express Enterprise 5.1;

• Процессор текстовых слоев DjVu OCR 2.4 (выложен на сервере по адресу http://www.djvu-soft.narodTu/soft);

• DjVu-редактор LizardTech Document Express Editor 6.0.1.

Вся операция сохранения начинается с настройки предварительно установленного кодера DjVu. Диалог настройки в LizardTech Document Express Enterprise вынесен в отдельное приложение, называемое Configuration Manager (Менеджер настроек). Запускаем это приложение.

Интерес здесь представляют профили кодирования, сгруппированные в списке Select Profile. Задача настройки (это нужно будет сделать всего один раз) состоит в том, чтобы подготовить три специальных профиля для кодирования изображения:



1. Одноцветный (Bitonal) на разрешение 600 dpi — для кодирования основной части книги и диффузных (Dithered) иллюстраций;

2. Фотографический (Photo) профиль на 300 dpi — для кодирования обложек и полноцветных иллюстраций;

3. Сканерный (Scanned) профиль на разрешение 600 dpi — для кодирования страниц с черно-белыми клишированными фотоиллюстрациями.

Для создания каждого профиля нужно сперва выбрать из списка Select Profile базовый профиль. Соответственно, для указанного списка это будут профили Bitonal (600dpi), Photo (300dpi) и Scanned (600dpi). Выбрав профиль, нажимаем кнопку Advanced Settings, не трогая никаких основных настроек. В появившемся диалоге на вкладках Text и Background выставляем параметры так, как показано на рисунках: