Автор: Сергей Голубицкий
Опубликовано 20 ноября 2010 года
Сегодня расскажу о замечательнейшей утилите, работающей под Windows (под Maс OS X аналогов не существует). Сначала, однако, хочу подвести небольшую теоретическую базу под всю категорию данного софта.
Речь идет о text batch converters, конвертеров поточного преобразования текстовых файлов. Думаю, не будет преувеличением, что с годами пользователи (подчеркиваю: пользователи, а не профувязанные с компом не-буду-лишний-раз-произносить-кто-чтобы-не-сердить ☺) накапливают нечеловечески запасы всякого сетевого хлама - фильмов, картинок, звуков и книжек. Хлам - это я, конечно, пошутил: мусор на вашем компе сродни дворняжке, которую вы подобрали щенком лет восемь назад в городском парке у помойки и с тех пор породнились с ней душой и сердцем. Так что это только для взгляда со стороны на компьютере у вас хранится никому не нужный хлам. Для вас это - ценнейшая и полезнейшая информация, которую вы непременно когда-нибудь прослушаете, просмотрите, прочитаете.
Не буду опять расстраивать и говорить, что с огромной долей вероятности вы никогда уже в жизни собранную коллекцию не посмотрите и не послушаете, а уж тем более - не почитаете. Скорее всего плоды ваших многочасовых компьютерных бдений-скачиваний плавно перекочуют вашим наследникам после того, как вы отчалите в мир теней и гипотетических радостей. Надежда, однако, никогда не умирает, поэтому все мы верим, что наступит тот день, когда.... да я! да как открою первую страницу! да как начну глотать книгу за книгой! Ну и так далее.
Впрочем, есть и более прагматичный вариант, относящийся в первую очередь к книгам. Даже если вы никогда их не прочитаете, сохраняется шанс их использовать в виде ... референций! Для любого писателя или журналиста книги, собственно, вообще только и нужны, что для референций, но даже для рядового пользования электронная библиотека, переведенная в вид индексированной базы данных, представляет собой несоизмеримо более ценный объект, чем склад пылящихся электронных фолиантов в папках, поддиректориях, подподдиректориях и т.п. Положим, вы никогда не осилите шеститомник под редакцией Кеннета Сеттона об истории крестовых походов, и даже три тома Стивена Рансимена на ту же тему не потянете (не потому что не интересно или сложно - как раз наоборот, захватывающе и просто, а потому что банально нет времени), однако единожды введенные в базу данных и индексированные эти книги сослужат вам удивительную службу при написании статьи, дружеской беседе и - вот она, сермяга! - на форумных баталиях! Даже не будучи прочитанными книги начинают приносить пользу, переходят из абсолютно пассивного бесполезного качества, в полуактивное состояние. Уже ради этого можно оправданно продолжать закачивать и закачивать все новое и новое ad infinitum ☺ .
Короче говоря, вот о чем и к чему я клоню. С годами выделилась группа софтверных утилит, которые интересуют меня на голову больше всего остального - это те самые выше помянутые конвертеры поточного преобразования текстовых файлов. Дело в том, что электронные книги я как и все остальные пользователи собираю по сотням сусеков, поэтому в компьютер они попадают в самом непотребном виде. Во-первых, форматы: pdf, djvu (это самые мои ненавистные - кто только придумал этот чудовищный формат!), txt, doc, rtf, fb2, epub, pdb и бог весь еще что. Во-вторых, это кодировки: Cyrillic Windows (CP-1251), Cyrillic DOS (866), Cyrillic Unix (KOI8-R) плюс вся череда европейских и экстравагантных кодировок, унаследованных из ошибок (форточных) молодости. Можно, конечно, попытаться все это хозяйство в сыром виде закинуть в базу данных и проиндексировать, но почти гарантировано на выходе вы получите бесполезный инструмент.
Почему? Потому что файлы с неопознанной кодировкой в таком - абракадабровом - виде в базу данных и попадут, где и сгинут окончательно: ведь вы никогда не сможете выйти на первоисточник по своим запросам! Многое, конечно, зависит от выбранной базы данных. В Windows нам повезло - есть фантастический Архивариус 3000, зато под Mac OS X дела обстоят сильно печальнее: встроенный Spotlight, умиляющий примитивом, да FoxTrot Professional Search за какие-то непотребные деньги - 100 евро, которые, может, и оправдались бы, если бы продукт был достойный. А так - ползает еле-еле хуже даже почившей в бозе недотыкомки Евфрат Документооборот (когда-то лет 10 назад я сравнивал эту базу данных с восходящей звездой Cros, а года четыре назад уже и сам Cros уступил все лавры первенства Архивариусу 3000 - эх, бегут годы, бегут!).
Так вот: и Spotlight, и FoxTrot виндузовые кодировки в чисто текстовых файлах по умолчанию не понимают. Индексируют абракадаброй со всеми вытекающими. Можно, конечно, каждый файл отдельно открывать в TextEdit и перекодировать в UTF-8, но у меня этих файлов - с расширением TXT - в библиотеке тысяч сорок, если не более.
В итоге самыми востребованными в моем хозяйстве стали программы, которые на потоке преобразую различные текстовые файлы: конвертируют из одного формата в другой, меняют кодировки, унифицируют форматирование и прочая.