Свежий номер №43 (420) / …плюс деПиДеФизация всей страны
 
Дата публикации: 13.11.2001

Сергей Голубицкий, sergei@internettrading.net

Сначала хотел назвать «Голубятню» «…плюс деАДОБИзация всей страны», но потом подумал, что призыв избавляться от продуктов Adobe прозвучит придурковато в свете повсеместной любви к Фотошопу - бесспорно, чудесному пакету для работы с изображениями. Да и потом, уж очень натянуто бы это смотрелось в контексте «дела Склярова».

Кстати, пользуясь случаем, хотел бы вновь привлечь внимание читателей к этой теме, самым бессовестным образом заброшенной отечественными представителями древнейшей профессии: ясное дело, момент «жаренности» прошел, ну а до самой трагедии русского программиста никому нет дела. Нет чтобы взять пример с геволта вокруг удушения «свободы» в СССР, который не затихал ни на миг долгие годы, пока не раздолбал то, что, казалось, невозможно раздолбать. Во как надо сражаться за «своих»! А между тем проблема-то остается открытой: последние новости по «делу Склярова» на самом информативном ресурсе - ezhe.ru/elcomsoft - датированы 6 сентября. Я понимаю, что все напуганы всесилием американского Молоха (особенно на фоне монополии на страдания), так что боятся рта открыть, дабы не навредить судебному разбирательству. Но история как раз говорит об обратном: только непрерывным общественным давлением и гласностью можно повлиять на творимый произвол. А для всякого психически нормального человека, не поддающегося на дешевую пропаганду «нового мирового порядка», преследование гражданина другой страны (даже такой униженной и оплеванной, как Россия) за нарушение законов собственного государства - произвол. Смириться с этим произволом значит уподобиться овцам в стаде, которые равнодушно взирают на то, как волки по одиночке выдергивают самых крайних. И мысль при этом в черепном бульоне варится лишь одна: «Слава богу, не меня!»

Короче говоря, речь сегодня пойдет не о деАДОБИзации, а о деПиДеФизации, то есть об избавлении от адобовско-акробатовского формата PDF. Только поймите меня правильно: формат PDF - очень нужная и полезная штука, особенно для передачи документов, когда вопрос оригинального форматирования и копирайта поставлен во главу угла. Формат PDF прекрасно подходит для упаковки электронных книг с насыщенной графикой (например, художественных или фотоальбомов) или, скажем, для пересылки юридических формуляров, анкет, договоров, отчетов и аналогичных бумаг. Кто хоть раз пытался сохранить иллюстрированный текст в Ворде и в отчаянии наблюдал, как картинки, сколько их не поправляй и не сохраняй, наползают друг на друга, как пьяные тараканы, тот со мной согласится: PDF - манна небесная! Поэтому я вовсе не ратую за сортирное замачивание столь полезного инструмента. Отнюдь! Однако перед всяким творческим пользователем постоянно стоит задача не просто читать тексты, но и работать с ними. А под работой понимается анализ и синтез материалов в будущем, интенсивный поиск в созданных базах данных и т. п. Именно это и нельзя проделать с документами PDF по той причине, что они аки «вещи в себе», эдакие чертики из табакерки, которые выскакивают, чтобы показать язык, а потом табакерка снова захлопывается. Выражаясь менее образно, документ в формате PDF невозможно индексировать с помощью программ электронной архивации (например, моего любимого Cross) для того, чтобы впоследствии производить поиск по ключевым словам.

Помимо этого - главного - недостатка PDF есть и другие, менее принципиальные: например, чудовищная требовательность этого формата к ресурсам компьютера, или, скажем, его некомпактность. Я проделал маленький эксперимент: взял книгу, картинки в которой (формат jpg) занимают 1,39 Мбайт, а текст в формате HTML - 0,452 Мбайт (360 тыс. знаков), и сохранил в различных форматах. Результат - в таблице.


Формат

Размер файла, Мбайт

DOC (Word 2000)

0,960

HTML

1,84

PDF

3,63

RTF

4,07


A propos, прошу всех мастдайников обратить внимание на блестящий результат, показанный микрософтовским Вордом! Поскольку одним из главных аргументов при проталкивании формата PDF выступает его выдающаяся кроссплатформность, то есть способность к адекватному воспроизведению содержания независимо от операционной системы, я не буду агитировать здесь за явно проприетарный Ворд, а лишь скромно замечу, что HTML обладает, мягко говоря, гораздо большей кроссплатформностью, чем Adobe Actobat (хотя бы потому, что не требует установки никаких дополнительных вьюеров и плагинов), и при этом он более чем в два раза, компактнее PDF. Не говоря уж о самом важном достоинстве - возможности индексировать HTML-документы.

Одним словом, передо мной давно стояла задача найти утилиту, которая позволяла бы конвертировать формат PDF в HTML. Удивительно, что есть море программ для обратного действия - перекидывания различных форматов в PDF, - и лишь две, способные выполнять нужную мне процедуру. По крайней мере это то, что удалось раздобыть за год периодических изысканий. Знакомьтесь: Advanced PDF to HTML converter и BCL Magellan. Первая - так называемая stand-alone (самостоятельная) утилита, вторая - плагин для Adobe Acrobat.

Надо сказать, что работа обеих программ меня очень разочаровала: если с оригинальным английским документом они с грехом пополам справляются, то с русским - полные кранты. Можете сами убедиться: так выглядит оригинальный текст в PDF (рис. 1), так его извлек Magellan (рис. 2), а так - Advanced PDF to HTML converter (рис. 3). Особливо информативно выглядит последний вариант, больше подходящий для медитации, чем для чтения.

Мораль: бросаю клич отечественным Кулибиным от программирования. Напишите человеческий конвертер PDF to HTML, и все поисковые системы мира поклонятся вам в ножки! Правда, в Америку после этого ездить категорически не рекомендуется, потому как любовь Adobe к манипуляциям над ее программами общеизвестна!

Как обычно, линки на программы, помянутые в «Голубятне», вы найдете на internettrading.net/beritut.

[i42047]


Сергей Голубицкий (фотография) Сергей Голубицкий
sergei@internettrading.net
 


<< Финляндия против Калифорнии
Все материалы номера
Забыт пароль? Поможет Linux! >>