Как быстро отсканировать книгу в формат PDF (используя ClearScan) - [2]
Измерив страницу книги в миллиметрах, можно задать длину и ширину. Конечно, «на стекле» это можно сделать лишь приблизительно, так как точно положить книгу на стекло невозможно. А листовой сканер будет засасывать листы с ровной стороны (либо сверху/снизу либо, если сбоку, надо положить ровной стороной) и тут всё будет точно вплоть до миллиметра. На своём листовом сканере я последнее время, из-за врождённой лени, выбираю опцию «улучшить текст» (text enhancement), которая «ужирняет» и «учерняет» текст и портит цветные иллюстрации (сгущает краски) и опцию «выравнять изображения» (deskew) так как ровные листы легче потом обработать. Но можно вообще никаких других опций кроме dpi и цвета не выбирать, и оставить всё остальное на стадию чистки.
2. Чистка
Задача этой ступени — получить на выходе файлы с чистыми, красивыми страницами в том же формате TIFF и в том же количестве. Это «набор» будущей электронной книги. Нечего и говорить, что обрабатывать нужно все (вернее почти все) изображения по группам, т. е. в «пакетном режиме» (batch processing). Кроме обложек и некоторых других неординарных страниц, возиться с каждым изображением страницы отдельно в графическом редакторе практически невозможно (представьте 700 страниц текста!) да и не нужно.
Для чистки, я пользуюсь программой ScanKromsator v 5.9. Её надо поискать в интернете. Я немного поплевался на пол из за её интерфейса, но это только сначала, пока не привыкнешь. Потом перестаёшь замечать причуды, и даже наоборот, отмечаешь как удобно сделать то или это.
Ссылки на описание этой программы:
• http://ru.wikipedia.org/wiki/ScanKromsator
• http://www.djvu-soft.narod.ru/kromsator/
• http://www.twirpx.com/file/394016/
Программа, особенно для начинающего, сложная, но всё же не такая сложная как, скажем, Photoshop. Есть также ScanTaylor, которая обещает быть проще, но я не пробовал. Какая бы программа не использовалась, нужно
• убрать наклон страниц (deskew)
• отрезать неровные края
• выравнять освещённость (убрать тени от неравномерной освещённости)
• убрать точки и другой мусор (despeckle)
• отдельно проверить/выправить иллюстрации (включая обложку)
• поднять разрешение до 600dpi, если сканировали с меньшим разрешением.
После того как ScanKromsator пройдётся по страницам (т. е после нажатия кнопки process), он откроет окно для проверки результата (result view). В этом окне есть такие незаменимые инструменты как ластик, «волшебная очистка» и выбор цвета к ней. Не брезгуйте воспользоваться ими для индивидуальной чистки отдельных особо грязных страниц.
Можно поправить такие дефекты на станицах как заметки на полях (если конечно, нет цели их сохранить), стереть карандашные линии, подчёркивающие текст (будут мешать программе OCR, которая примет их за графику), убрать полосы, пятна, а иногда и задний фон. Я однажды сканировал книжку с синими буквами на голубом фоне; фон вышел безобразно, и я его просто убрал с помощью «волшебной очистки», т. е. поменял на белый, благо он был чуть светлее текста и от него можно было избавиться, убрав его цвета.
Из вышесказанного ясно, что чистка — это самая технически сложная ступень. Если вы не работали раньше с графическими редакторами, то нечего и думать сделать всё с первого раза на сто процентов. Не отчаиваетесь! Даже чуть облагороженный файл — это шаг вперёд на пути к лучше отсканированной книге! В другой раз будет ещё лучше. А потом, русские просто обожают чистку! К сожалению, мы даже любим вычищать наше собственное население. Или, как говорят теперь, «зачищать». Было вычищено столько народу, что если б от этого действительно зависело продвижение на пути в рай, мы давно жили б в раю. Как тут не вспомнить Сергея Мироновича Кирова:
«ЧК-ГПУ — это орган, призванный карать, а если попросту изобразить это дело, — не только карать, а карать по-настоящему, чтобы на том свете был заметен прирост населения, благодаря деятельности нашего ГПУ.»
На том свете, стало быть прибыло, а на этом убыло. Но они ж все плохие были, те которые убыли… чего их не расстрелять за плохоту? Простите за отступление, просто в нашем стремлении к крайностям мы иногда вычищаем самих себя. Потом удивляемся: «почему у нас режим авторитарный?» Потому что хочется быстрых, кардинальных, простых решений для сложных проблем. Посмотрите сколько людей мыслят в русле «да взять их всех да и <способ вычищения>», и вы согласитесь что никакого другого режима, кроме авторитарного, т. е. который способен «всех взять за… и…» нам не светит.
3. Перевод в конечный формат
Итак… переводим книгу в нужный формат. Я здесь рассматриваю только формат PDF как единственно простое, быстрое, кардинальное решение «форматного вопроса»… стойте. Где-то я уже это говорил. Ах, да. Ну, хорошо, есть много форматов в которые можно перевести книгу, в том числе «текстовые». Нравится вам вычитывать книгу — вычитывайте. Только уж вычитывайте как следует, а то скачаешь с интернета книжку в текстовом формате — там опечаток море.
Я же объясню как сделать книгу в PDF, причём используя технологию ClearScan. ClearScan — передовая технология. Если сам по себе формат PDF не идеален для хранения сканов (получается либо большого размера файл, либо, если сжать побольше, некачественное изображение) то при применении ClearScan, этот формат приближается к идеальному.