|
Скачать "Энциклопедию Дюны"
|
Copyright: Dr. Willis E. McNelly, © 1984
Реставратор: Виталий Чихарин (ChVA)
Язык оригинала: english
Формат файла: *.pdf (Adobe Acrobat Reader 5.1 and higher)
Размер файла: 10 412 441 байт
Файл скачен: 14349 раз
ВНИМАНИЕ! Исключительные права на данный электронный вариант "Энциклопедии Дюны" принадлежат только сайту "Дюна: Пряный Мир"!
Не допускается любое опубликование этого варианта на других ресурсах,
а также его использование в коммерческих целях. |
|
|
Замечания по поводу выложенного экземпляра "Энциклопедии Дюны"
Источник
Источником для создания этого экземпляра послужил имевшийся в сети файл формата "Adobe PDF" с Энциклопедией Дюны. Файл представлял собой фотографический снимок всех страниц книги, то есть совокупность графических образов страниц книги в "веб-качестве" - 72 dpi. Кроме того, изображение было сильно зашумлено, в некоторых местах даже было трудно прочитать текст.
Такой формат имел целый ряд недостатков, существенно ограничивающих его полезность:
· большой размер (более 32 Мб);
· невозможность поиска по содержимому файла;
· невозможность копирования текста.
Создание текущего экземпляра
По перечисленным выше причинам, было принято решение перевести файл в текстовый вид, с частичным сохранением разметки. На этом пути возникли следующие трудности:
· нужно было найти способ извлечь картинки из исходного файла формата PDF;
· нужно было перевести текстовую составляющую рисунков в текстовый файл;
· нужно было попытаться сохранить разметку книги (рисунки, двухколоночный макет и т.п.);
· нужно было найти способ перевести полученный файл снова в формат PDF.
Для извлечения рисунков (один рисунок представляет графический снимок одной страницы книги) использовалась программа PDF Extract TIFF. Трудности на этом этапе были связаны только с ограничением функциональности демонстрационной версии программы.
Для распознавания текста использовалась система оптического распознавания символов Fine Reader. На этом этапе возникло много проблем - во-первых следовало вручную определить границы текстовых блоков и рисунков для каждой страницы, так как в случае довольно сложной верстки Энциклопедии, Fine Reader в автоматическом режиме делал слишком много ошибок при определении границ блоков. Во-вторых, собственно распознавание текста сильно затруднялось низким качеством рисунков (72 dpi вместо достаточных для уверенного распознавания 300, сильная засоренность рисунков).
Для "верстки" текста использовался Microsoft Word. Верстка осуществлялась в два прохода:
· на первом этапе текст был собственно "сверстан" (я ставлю здесь кавычки, потому, что MS Word не является в полном смысле слова инструментом для верстки), при этом я по возможности пытался сохранить изначальное оформление книги, с некоторыми ограничениями, о которых скажу ниже;
· на втором этапе была произведена проверка орфографии и частичная вычитка текста (на полную у меня не хватило не времени, ни терпения). В связи с низким качеством рисунков, Fine Reader делал большое количество ошибок распознавания, кроме того, проверка орфографии осложнялась тем, что в тексте содержалось большое количество не содержащихся в словарях слов (таких, как взятые из Дюны термины и имена собственные, Bene Gesserit, Atreides и т.п.) - приходилось постоянно переключаться к исходному тексту и контролировать правильность написания (особенно раздражали в этом смысле многочисленные придуманные составителями неудобоваримые имена).
Дополнительно к этому, на этапе верстки были также расставлены гиперссылки (почти 500 штук) - теперь все отсылки типа (see Atreides, Paul) являются гиперссылками и позволяют быстро перейти к нужной части документа.
Для перевода документа Word в формат PDF я использовал Jaws PDF Creator. Это очень удобный инструмент и он, в отличие от большинства других программ для этой цели не только служит "фиктивным принтером", но еще и имеет макрос для MS Office, а поэтому корректно обрабатывает примечания (сноски), гиперссылки, заголовки разных уровней и т.п., позволяя создать качественный e-book.
Ограничения и изменения e-book по сравнению с оригиналом
Во-первых, разметка страницы не полностью соответствует оригиналу - я выбрал другой шрифт и другой кегль, а также и другие размеры полей и колонтитулов. Поэтому в представленном e-book'е почти на 200 страниц больше, чем в оригинале. Также изменено оформление заголовков (они вынесены на отдельную строку, а в оригинале внедрены в текст). Верхние колонтитулы с названиями текущей строки в оригинале содержат название главы для каждой колонки отдельно, а в этом e-book'е всего один колонтитул на странице, который содержит название последней на странице главы. Сноски, которые в оригинале ведут к примечаниям, расположенным в конце глав, теперь переделаны для постраничных примечаний, так как с такими примечаниями легче работать. Список литературы, который имеется в конце большинства глав, преобразован так, чтобы в одной строке была одна позиция (в отличие от оригинала, где вся литература написана в одну строку). Кроме того, отсылки на другие главы книги преобразованы в гиперссылки, о чем я уже писал выше.
Тест исходной книги приведен полностью за одним исключением - отсутствует список литературы (приведенный в оригинале в конце книги). У меня, честно говоря, просто не хватило сил проверять несколько страниц выдуманных из головы названий книги и имен их "авторов".
Возможные проблемы
Шрифты
В книге использованы только стандартные шрифты - засечный Times New Roman и рубленный Arial, за одним исключением - в "языковых главах" (о Галахе и языке фременов) для обозначения некоторых специальных, отсутствующих в стандартном наборе, фонетических символов, применен специальный шрифт Thryomanes. Если в этих главах есть проблемы с отображением некоторых символов, попробуйте скачать и установить этот шрифт (файл thryoman.ttf можно взять здесь).
Орфография
Несмотря на проверку орфографии и вычитку, в e-book'е могут быть ошибки (часто они связаны с неправильным распознаванием, когда вместо одного слова распознается другое, но также реально существующее - так, вместо слова 'the' частенько отображалось 'die'. Такие ошибки трудно выловить, так как их нельзя найти при проверке стандартными средствами Word.
Самые грубые ошибки в исходном файле (скорее, даже опечатки), я исправлял, все остальное оставлено, как в оригинале - например, ошибочное написание "CEVNA, NORMA" вместо "CENVA, NORMA", как это на самом деле у Герберта.
Если вы обнаружите укрывшуюся от меня ошибку в e-book'е, пожалуйста, пришлите мне информацию о ней на адрес или по официальному адресу "Пряного мира" .
Совместимость
Для создания использовался формат Adobe PDF version 1.4. Этот формат обеспечивает несколько меньший размер файла, но открывается он только программой Adobe Acrobat Reader, начиная с 5-й версии.
Другое
Обратите внимание, что в файле PDF определены закладки - вы можете открыть панель в левой части Adobe Acrobat Reader и быстро перемещаться между главами. Полностью работает поиск и копирование файлов (при копировании одновременно копируются обе колонки, обратите на это внимание).
Сроки выполнения
Работа была начата в середине октября 2003-го года и закончена 19 февраля 2004 года, то есть заняла около четырех месяцев. В среднем я тратил на нее около пяти часов в неделю, то есть всего затрачено около восьмидесяти часов.
Размер файла
Сожалею, что получился такой большой размер, я думал, будет около пяти мегабайт, но все равно, это менее чем треть от исходного. Файл не упакован архиватором, так как файлы формата PDF практически не сжимаются.
Автор: Виталий Чихарин
|