Создание электронной копии книги в формате DjVu в Linux

From Salix OS
Jump to: navigation, search

Эта статья является описанием опыта создания электронных копий чёрно-белых бумажных книг в формате DjVu в операционной системе Linux XUbuntu 14.04.

Contents

Набор программ

  • Программа для работы со сканером, например: Simple Scan или XSane.
  • Geeqie — просмотрщик изображений, удобный в использовании для контролирования качества изображений во время сканирования.
  • Scan Tailor — программа для обработки отсканированных изображений.
  • DjVuLibre — набор библиотек и утилит для работы с форматом DjVu.
  • img2djvu — консольная утилита (скрипт) для раздельного конвертирования текста и картинок в DjVu. Скачать архив со скриптом, кликнув по кнопке «Download ZIP», и распаковать его. Зависимости: DjVuLibre, ImageMagick.
  • DjVuSmooth — программа для добавления интерактивного оглавления в многостраничные DjVu-файлы.
  • GIMP — растровый графический редактор.
Просмотр DjVu
  • QpdfView
  • Evince
  • Ocular
  • DjView — есть возможность конвертирования DjVu в PDF и другие графические форматы. Также присутствует функция печати DjVu-файлов буклетом (брошюрой).
Распознавание текста
  • YAGF — графический интерфейс для программ распознавания текста Tesseract и CuneiForm. Пригодится для распознавания страниц с оглавлением. Страницы лучше распознавать после обработки в Scan Tailor.

Алгоритм действий

  • Книга сканируется с разрешением от 150 (быстро с достаточным качеством) до 300 (медленно с идеальным качеством) пикселей на дюйм (PPI). Формат изображений — JPG.
  • Обложка кадрируется в редакторе GIMP и сразу конвертируется в DjVu путём команды (открыть терминал в папке с JPG-файлами):
for file in *.jpg; do c44 -dpi 150 $file > ${file%jpg}djvu; done

, где «-dpi 150» — разрешение сканов.

  • Отсканированные изображения, кроме обложек, обрабатываются в программе Scan Tailor. Для страниц с иллюстрациями выбрать режим вывода «Смешанный».
  • Обработанные отсканированные изображения сконвертировать в DjVu и собрать в единый документ путём команды (открыть терминал в папке со скриптом «img2djvu»):
./img2djvu -l 1 -d 600 out

, где: «-d 600» — разрешение обработанных сканов; «out» — папка «out» с обработанными изображениями, находящаяся в одной со скриптом «img2djvu» папке. Переименовать готовый djvu-файл в «2.djvu».

  • DjVu-файлы обложки переименовать в 1.djvu (передняя обложка) и 3.djvu (задняя обложка). Добавить эти файлы в папку с «2.djvu». Выполнить команду:
djvm -c Kniga.djvu *.djvu

Получится готовая книга «Kniga.djvu»

  • Создать содержимое оглавления в текстовом файле и перенести его в готовую DjVu-книгу при помощи программы DjVuSmooth.

Операции с DjVu-файлами

Удаление и добавление страниц

Удаление

djvm -d Kniga.djvu 3

, где 3 — номер удаляемой страницы.

Добавление

djvm -i Kniga.djvu 1.djvu 3

, где 3 — номер вставляемой страницы.

Работа с оглавлением

Извлечение оглавления DjVu-книги с его записью в текстовый файл:

djvused Kniga.djvu -u -e print-outline > Oglavlenie

Добавление оглавления в DjVu-книгу из текстового файла:

djvused Kniga.djvu -s -e "set-outline Oglavlenie"
Конвертирование в TIFF

Конвертирование всех страниц документа DjVu в многостраничный TIFF:

ddjvu -format=tiff Kniga.djvu Kniga.tif

Конвертирование отдельных страниц документа DjVu в многостраничный TIFF:

ddjvu -format=tiff -page=3-5,7 Kniga.djvu 1.tif

, где 3-5,7 — номера страниц 3, 4, 5, 7.

Конвертирование всех страниц документа DjVu в отдельные файлы-страницы TIFF:

ddjvu -format=tiff -eachpage Kniga.djvu %d.tif

Конвертирование также можно сделать программой DjView.

Другие команды

cjb2

Конвертирование двутоновых изображений (чёрно-белый режим вывода в Scan Tailor) TIF в DjVu:

for file in *.tif; do cjb2 $file ${file%tif}djvu; done