Распознавание текста

Примечание: изложенная в этой статье информация проверена в Salix OS 13.37 i486 Xfce.

Tesseract

Система оптического распознавания символов.

Готовый пакет Tesseract и необходимую для него зависимость, пакет Leptonica, можно найти по адресу: packages.zenwalk.org.

gImageReader

Страница проекта

Графический интерфейс для Tesseract. Отличительной особенностью этой программы является возможность импорта PDF файлов и выбора в них отдельных страниц для распознавания. Скрипт SLKBUILD для самостоятельной сборки пакета gImageReader:

pkgname=gimagereader
pkgver=0.9
pkgrel=111
source=("http://downloads.sourceforge.net/gimagereader/$pkgname-$pkgver.tar.gz")
docs=("authors" "copying" "changelog" "install" "news" "readme")


slackdesc=\
(
#|-----handy-ruler------------------------------------------------------|
"gimagereader (GUI for Tesseract-ocr)"
"gImageReader is a simple PyGTK front-end to tesseract-ocr."
""
"Homepage: http://sourceforge.net/projects/gimagereader/"
)


build() {
        cd $startdir/src/$pkgname-$pkgver
        ./setup.py install --prefix=/usr --root=$startdir/pkg
}

Зависимости

PIL (устанавливается из GSlapt)
PyPoppler (инструкция по сборке из скриптов)
PyEnchant
PyGtkSpell-2.25.3-i486-5sl.txz (необязательно)

Создание электронной книги

Распознанный текст можно отредактировать в текстовом процессоре OpenOffice.org Writer и экспортировать в форматы PDF или FB (при помощи плагина OOo FBTools).

Просмотреть книгу в FB формате можно при помощи программ:

FBReader
FB2 Reader — расширение для браузера Firefox или SeaMonkey.

См. также

Создание графической электронной копии книги

Ссылки

Тема "Распознавание текста" на форуме Salix OS.

Распознавание текста

Contents

Tesseract

gImageReader

Зависимости

Создание электронной книги

См. также

Ссылки

Navigation menu

Personal tools

Namespaces

Variants

Views

Actions

Search

Navigation

News

Links

Wiki toolbox

Toolbox