Распознавание текста

From Salix OS
Jump to: navigation, search

Примечание: изложенная в этой статье информация проверена в Salix OS 13.37 i486 Xfce.

Contents

Tesseract

Система оптического распознавания символов.

Готовый пакет Tesseract и необходимую для него зависимость, пакет Leptonica, можно найти по адресу: packages.zenwalk.org.

gImageReader

Страница проекта

Графический интерфейс для Tesseract. Отличительной особенностью этой программы является возможность импорта PDF файлов и выбора в них отдельных страниц для распознавания. Скрипт SLKBUILD для самостоятельной сборки пакета gImageReader:

pkgname=gimagereader
pkgver=0.9
pkgrel=111
source=("http://downloads.sourceforge.net/gimagereader/$pkgname-$pkgver.tar.gz")
docs=("authors" "copying" "changelog" "install" "news" "readme")


slackdesc=\
(
#|-----handy-ruler------------------------------------------------------|
"gimagereader (GUI for Tesseract-ocr)"
"gImageReader is a simple PyGTK front-end to tesseract-ocr."
""
"Homepage: http://sourceforge.net/projects/gimagereader/"
)


build() {
        cd $startdir/src/$pkgname-$pkgver
        ./setup.py install --prefix=/usr --root=$startdir/pkg
}

Зависимости

Создание электронной книги

Распознанный текст можно отредактировать в текстовом процессоре OpenOffice.org Writer и экспортировать в форматы PDF или FB (при помощи плагина OOo FBTools).

Просмотреть книгу в FB формате можно при помощи программ:

  • FBReader
  • FB2 Reader — расширение для браузера Firefox или SeaMonkey.

См. также

Ссылки