Распознавание текста
From Salix OS
Примечание: изложенная в этой статье информация проверена в Salix OS 13.37 i486 Xfce.
Contents |
Tesseract
Система оптического распознавания символов.
Готовый пакет Tesseract и необходимую для него зависимость, пакет Leptonica, можно найти по адресу: packages.zenwalk.org.
gImageReader
Графический интерфейс для Tesseract. Отличительной особенностью этой программы является возможность импорта PDF файлов и выбора в них отдельных страниц для распознавания. Скрипт SLKBUILD для самостоятельной сборки пакета gImageReader:
pkgname=gimagereader pkgver=0.9 pkgrel=111 source=("http://downloads.sourceforge.net/gimagereader/$pkgname-$pkgver.tar.gz") docs=("authors" "copying" "changelog" "install" "news" "readme") slackdesc=\ ( #|-----handy-ruler------------------------------------------------------| "gimagereader (GUI for Tesseract-ocr)" "gImageReader is a simple PyGTK front-end to tesseract-ocr." "" "Homepage: http://sourceforge.net/projects/gimagereader/" ) build() { cd $startdir/src/$pkgname-$pkgver ./setup.py install --prefix=/usr --root=$startdir/pkg }
Зависимости
- PIL (устанавливается из GSlapt)
- PyPoppler (инструкция по сборке из скриптов)
- PyEnchant
- PyGtkSpell-2.25.3-i486-5sl.txz (необязательно)
Создание электронной книги
Распознанный текст можно отредактировать в текстовом процессоре OpenOffice.org Writer и экспортировать в форматы PDF или FB (при помощи плагина OOo FBTools).
Просмотреть книгу в FB формате можно при помощи программ:
- FBReader
- FB2 Reader — расширение для браузера Firefox или SeaMonkey.