Создание электронной копии книги в формате DjVu в Linux
Эта статья является описанием опыта создания электронных копий чёрно-белых бумажных книг в формате DjVu в операционной системе Linux XUbuntu 14.04.
Contents |
Набор программ
- Программа для работы со сканером, например: Simple Scan или XSane.
- Geeqie — просмотрщик изображений, удобный в использовании для контролирования качества изображений во время сканирования.
- Scan Tailor — программа для обработки отсканированных изображений.
- DjVuLibre — набор библиотек и утилит для работы с форматом DjVu.
- img2djvu — консольная утилита (скрипт) для раздельного конвертирования текста и картинок в DjVu. Скачать архив со скриптом, кликнув по кнопке «Download ZIP», и распаковать его. Зависимости: DjVuLibre, ImageMagick.
- DjVuSmooth — программа для добавления интерактивного оглавления в многостраничные DjVu-файлы.
- GIMP — растровый графический редактор.
- Просмотр DjVu
- QpdfView
- Evince
- Ocular
- DjView — есть возможность конвертирования DjVu в PDF и другие графические форматы. Также присутствует функция печати DjVu-файлов буклетом (брошюрой).
- Распознавание текста
- YAGF — графический интерфейс для программ распознавания текста Tesseract и CuneiForm. Пригодится для распознавания страниц с оглавлением. Страницы лучше распознавать после обработки в Scan Tailor.
Алгоритм действий
- Книга сканируется с разрешением от 150 (быстро с достаточным качеством) до 300 (медленно с идеальным качеством) пикселей на дюйм (PPI). Формат изображений — JPG.
- Обложка кадрируется в редакторе GIMP и сразу конвертируется в DjVu путём команды (открыть терминал в папке с JPG-файлами):
for file in *.jpg; do c44 -dpi 150 $file > ${file%jpg}djvu; done
, где «-dpi 150» — разрешение сканов.
- Отсканированные изображения, кроме обложек, обрабатываются в программе Scan Tailor. Для страниц с иллюстрациями выбрать режим вывода «Смешанный».
- Обработанные отсканированные изображения сконвертировать в DjVu и собрать в единый документ путём команды (открыть терминал в папке со скриптом «img2djvu»):
./img2djvu -l 1 -d 600 out
, где: «-d 600» — разрешение обработанных сканов; «out» — папка «out» с обработанными изображениями, находящаяся в одной со скриптом «img2djvu» папке. Переименовать готовый djvu-файл в «2.djvu».
- DjVu-файлы обложки переименовать в 1.djvu (передняя обложка) и 3.djvu (задняя обложка). Добавить эти файлы в папку с «2.djvu». Выполнить команду:
djvm -c Kniga.djvu *.djvu
Получится готовая книга «Kniga.djvu»
- Создать содержимое оглавления в текстовом файле и перенести его в готовую DjVu-книгу при помощи программы DjVuSmooth.
Операции с DjVu-файлами
- Удаление и добавление страниц
Удаление
djvm -d Kniga.djvu 3
, где 3 — номер удаляемой страницы.
Добавление
djvm -i Kniga.djvu 1.djvu 3
, где 3 — номер вставляемой страницы.
- Работа с оглавлением
Извлечение оглавления DjVu-книги с его записью в текстовый файл:
djvused Kniga.djvu -u -e print-outline > Oglavlenie
Добавление оглавления в DjVu-книгу из текстового файла:
djvused Kniga.djvu -s -e "set-outline Oglavlenie"
- Конвертирование в TIFF
Конвертирование всех страниц документа DjVu в многостраничный TIFF:
ddjvu -format=tiff Kniga.djvu Kniga.tif
Конвертирование отдельных страниц документа DjVu в многостраничный TIFF:
ddjvu -format=tiff -page=3-5,7 Kniga.djvu 1.tif
, где 3-5,7 — номера страниц 3, 4, 5, 7.
Конвертирование всех страниц документа DjVu в отдельные файлы-страницы TIFF:
ddjvu -format=tiff -eachpage Kniga.djvu %d.tif
Конвертирование также можно сделать программой DjView.
Другие команды
- cjb2
Конвертирование двутоновых изображений (чёрно-белый режим вывода в Scan Tailor) TIF в DjVu:
for file in *.tif; do cjb2 $file ${file%tif}djvu; done