Ubuntu Suomen keskustelualueet
Ubuntun käyttö => Ubuntu tietokoneissa => Aiheen aloitti: jaripekka - 01.11.13 - klo:19.25
-
Millä tavalla voin lukea A4-paperin tekstin skannerilla niin, että saan sen tekstiksi, mitä voi tekstinkäsittelyohjelmalla editoida? Yritin etsiä vastausta haulla, ja löysin jonkin Google Docs -viritelmän, mutta en oikein osannut tai ymmärtänyt, miten se toimii.
-
Pakettienhallinsta löytyi seuraava paketti:
tesseract-ocr & tesseract-ocr-fin
En jaksa testata, mutta saattaisi toimia.
Hakusanalla ocr-löytyy myös muita varteenotettavia vaihtoehtoja.
apt-cache search ocr
-
Näyttää toimivan:
tesseract kuitti.png ulos.txt -l fin
Tosin kaikki l:t ja i:t muutti 1:ksi.
-
Tesseract on tosiaan komentoriviltä käytettävä, kuten kamara kertoi. Sille on myös Ubuntun paketeissa graafinen edusohjelma Yagf.
Siinä voi valita käyttääkö tekstintunnistukseen Tesseractia vai Cuneiformia. Yagfilla voi muuntaa skannattuja tiedostoja tekstiksi tai skannata xsanen kautta paperilta.
tietoa: http://symmetrica.net/cuneiform-linux/yagf-en.html (http://symmetrica.net/cuneiform-linux/yagf-en.html)
-
Tesseract on tosiaan komentoriviltä käytettävä, kuten kamara kertoi. Sille on myös Ubuntun paketeissa graafinen edusohjelma Yagf.
Siinä voi valita käyttääkö tekstintunnistukseen Tesseractia vai Cuneiformia. Yagfilla voi muuntaa skannattuja tiedostoja tekstiksi tai skannata xsanen kautta paperilta.
tietoa: http://symmetrica.net/cuneiform-linux/yagf-en.html (http://symmetrica.net/cuneiform-linux/yagf-en.html)
Ei tuon nimistä pakettia löytynyt ainakaan omasta Ubuntun pakettivalikoimasta.
-
Yagf löytyi Ubuntuun perustuvan Linux Mintin paketeista, joten hätiköidysti oletin sen löytyvän myös Ubuntun paketeista. PPAssakin oli paketteja vain Ubuntun vanhoille versioille. ???
Kokeile Teseractia komentoriviltä
-
Ei tuon nimistä pakettia löytynyt ainakaan omasta Ubuntun pakettivalikoimasta.
Se on mukana jakelussa vasta Ubuntu 12.10:stä lähtien: http://packages.ubuntu.com/quantal/yagf
13.04:n paketti tuntui toimivan ihan hyvin omassa 12.04:ssäni. Asennus onnistuu esimerkiksi seuraavilla komennoilla. (Valitse 32- tai 64-bittinen paketti Ubuntu-asennuksesi mukaan. Jos et muista bittisyyttä, sen voi selvittää komennolla uname -p -- i386=32-bittinen, x86_64=64-bittinen.)
Riippuvuuksien asennus:
sudo apt-get install tesseract-ocr tesseract-ocr-fin aspell-fi
32-bittisen paketin lataus ja asennus:
wget http://fi.archive.ubuntu.com/ubuntu/pool/universe/y/yagf/yagf_0.9.2-1_i386.deb
sudo dpkg -i yagf_0.9.2-1_i386.deb
64-bittisen paketin lataus ja asennus:
wget http://fi.archive.ubuntu.com/ubuntu/pool/universe/y/yagf/yagf_0.9.2-1_amd64.deb
sudo dpkg -i yagf_0.9.2-1_amd64.deb
Muitakin Tesseract-käyttöliittymiä on kyllä olemassa: http://en.wikipedia.org/wiki/Tesseract_%28software%29#User_interfaces
Ainakin OCRFeeder on mukana Ubuntu 12.04:n ohjelmalähteissä ja siinä on omat hyvät puolensa YAGF:ään verrattuna. Kumpikaan ohjelma ei mielestäni ole erityisen loistava. Niistä puuttuu käyttöliittymä kunnolliseen kuvan esikäsittelyyn Tesseractia varten. OCRFeederissä sentään on tuki unpaper-esikäsittelijälle, mutta manuaaliset säädöt ovat puutteelliset. Oikoluku on molemmissa ohjelmissa huono.
-
Xsane on skannausohjelma, mutta sen mukana näyttäisi tulevan myös tekstintunnistusohjelma. Ei ne koskaan kauhean hyvin toimi, mutta tuo toimi itselläni ainakin kohtuudella.