Ubuntu Suomen keskustelualueet

Ubuntun käyttö => Ubuntu tietokoneissa => Aiheen aloitti: jaripekka - 01.11.13 - klo:19.25

Otsikko: Ubuntu, skannaus ja tekstintunnistus
Kirjoitti: jaripekka - 01.11.13 - klo:19.25
Millä tavalla voin lukea A4-paperin tekstin skannerilla niin, että saan sen tekstiksi, mitä voi tekstinkäsittelyohjelmalla editoida? Yritin etsiä vastausta haulla, ja löysin jonkin Google Docs -viritelmän, mutta en oikein osannut tai ymmärtänyt, miten se toimii.
Otsikko: Vs: Ubuntu, skannaus ja tekstintunnistus
Kirjoitti: kamara - 01.11.13 - klo:19.54
Pakettienhallinsta löytyi seuraava paketti:
tesseract-ocr & tesseract-ocr-fin

En jaksa testata, mutta saattaisi toimia.

Hakusanalla ocr-löytyy myös muita varteenotettavia vaihtoehtoja.

Koodia: [Valitse]
apt-cache search ocr
Otsikko: Vs: Ubuntu, skannaus ja tekstintunnistus
Kirjoitti: kamara - 01.11.13 - klo:20.02
Näyttää toimivan:
Koodia: [Valitse]
tesseract kuitti.png ulos.txt -l fin

Tosin kaikki l:t ja i:t muutti 1:ksi.
Otsikko: Vs: Ubuntu, skannaus ja tekstintunnistus
Kirjoitti: Vika/fiba - 01.11.13 - klo:20.29
Tesseract on tosiaan komentoriviltä käytettävä, kuten kamara kertoi. Sille on myös Ubuntun paketeissa graafinen edusohjelma Yagf.
Siinä voi valita käyttääkö tekstintunnistukseen Tesseractia vai Cuneiformia. Yagfilla voi muuntaa skannattuja tiedostoja tekstiksi tai skannata xsanen kautta paperilta.
tietoa: http://symmetrica.net/cuneiform-linux/yagf-en.html (http://symmetrica.net/cuneiform-linux/yagf-en.html)
Otsikko: Vs: Ubuntu, skannaus ja tekstintunnistus
Kirjoitti: jaripekka - 01.11.13 - klo:23.38
Tesseract on tosiaan komentoriviltä käytettävä, kuten kamara kertoi. Sille on myös Ubuntun paketeissa graafinen edusohjelma Yagf.
Siinä voi valita käyttääkö tekstintunnistukseen Tesseractia vai Cuneiformia. Yagfilla voi muuntaa skannattuja tiedostoja tekstiksi tai skannata xsanen kautta paperilta.
tietoa: http://symmetrica.net/cuneiform-linux/yagf-en.html (http://symmetrica.net/cuneiform-linux/yagf-en.html)


Ei tuon nimistä pakettia löytynyt ainakaan omasta Ubuntun pakettivalikoimasta.
Otsikko: Vs: Ubuntu, skannaus ja tekstintunnistus
Kirjoitti: Vika/fiba - 02.11.13 - klo:13.11
Yagf löytyi Ubuntuun perustuvan Linux Mintin paketeista, joten hätiköidysti oletin sen löytyvän myös Ubuntun paketeista. PPAssakin oli paketteja vain Ubuntun vanhoille versioille. ???
Kokeile Teseractia komentoriviltä
Otsikko: Vs: Ubuntu, skannaus ja tekstintunnistus
Kirjoitti: nm - 02.11.13 - klo:15.09
Ei tuon nimistä pakettia löytynyt ainakaan omasta Ubuntun pakettivalikoimasta.

Se on mukana jakelussa vasta Ubuntu 12.10:stä lähtien: http://packages.ubuntu.com/quantal/yagf

13.04:n paketti tuntui toimivan ihan hyvin omassa 12.04:ssäni. Asennus onnistuu esimerkiksi seuraavilla komennoilla. (Valitse 32- tai 64-bittinen paketti Ubuntu-asennuksesi mukaan. Jos et muista bittisyyttä, sen voi selvittää komennolla uname -p -- i386=32-bittinen, x86_64=64-bittinen.)

Riippuvuuksien asennus:

Koodia: [Valitse]
sudo apt-get install tesseract-ocr tesseract-ocr-fin aspell-fi
32-bittisen paketin lataus ja asennus:

Koodia: [Valitse]
wget http://fi.archive.ubuntu.com/ubuntu/pool/universe/y/yagf/yagf_0.9.2-1_i386.deb
sudo dpkg -i yagf_0.9.2-1_i386.deb

64-bittisen paketin lataus ja asennus:

Koodia: [Valitse]
wget http://fi.archive.ubuntu.com/ubuntu/pool/universe/y/yagf/yagf_0.9.2-1_amd64.deb
sudo dpkg -i yagf_0.9.2-1_amd64.deb


Muitakin Tesseract-käyttöliittymiä on kyllä olemassa: http://en.wikipedia.org/wiki/Tesseract_%28software%29#User_interfaces

Ainakin OCRFeeder on mukana Ubuntu 12.04:n ohjelmalähteissä ja siinä on omat hyvät puolensa YAGF:ään verrattuna. Kumpikaan ohjelma ei mielestäni ole erityisen loistava. Niistä puuttuu käyttöliittymä kunnolliseen kuvan esikäsittelyyn Tesseractia varten. OCRFeederissä sentään on tuki unpaper-esikäsittelijälle, mutta manuaaliset säädöt ovat puutteelliset. Oikoluku on molemmissa ohjelmissa huono.
Otsikko: Vs: Ubuntu, skannaus ja tekstintunnistus
Kirjoitti: aku506 - 02.11.13 - klo:19.37
Xsane on skannausohjelma, mutta sen mukana näyttäisi tulevan myös tekstintunnistusohjelma. Ei ne koskaan kauhean hyvin toimi, mutta tuo toimi itselläni ainakin kohtuudella.