Kirjoittaja Aihe: Ubuntu, skannaus ja tekstintunnistus  (Luettu 3035 kertaa)

jaripekka

  • Käyttäjä
  • Viestejä: 199
    • Profiili
    • Teneriffa, Puerto de la Cruz, Loro Parque
Ubuntu, skannaus ja tekstintunnistus
« : 01.11.13 - klo:19.25 »
Millä tavalla voin lukea A4-paperin tekstin skannerilla niin, että saan sen tekstiksi, mitä voi tekstinkäsittelyohjelmalla editoida? Yritin etsiä vastausta haulla, ja löysin jonkin Google Docs -viritelmän, mutta en oikein osannut tai ymmärtänyt, miten se toimii.

kamara

  • Käyttäjä
  • Viestejä: 3034
    • Profiili
Vs: Ubuntu, skannaus ja tekstintunnistus
« Vastaus #1 : 01.11.13 - klo:19.54 »
Pakettienhallinsta löytyi seuraava paketti:
tesseract-ocr & tesseract-ocr-fin

En jaksa testata, mutta saattaisi toimia.

Hakusanalla ocr-löytyy myös muita varteenotettavia vaihtoehtoja.

Koodia: [Valitse]
apt-cache search ocr

kamara

  • Käyttäjä
  • Viestejä: 3034
    • Profiili
Vs: Ubuntu, skannaus ja tekstintunnistus
« Vastaus #2 : 01.11.13 - klo:20.02 »
Näyttää toimivan:
Koodia: [Valitse]
tesseract kuitti.png ulos.txt -l fin

Tosin kaikki l:t ja i:t muutti 1:ksi.

Vika/fiba

  • Käyttäjä
  • Viestejä: 661
    • Profiili
Vs: Ubuntu, skannaus ja tekstintunnistus
« Vastaus #3 : 01.11.13 - klo:20.29 »
Tesseract on tosiaan komentoriviltä käytettävä, kuten kamara kertoi. Sille on myös Ubuntun paketeissa graafinen edusohjelma Yagf.
Siinä voi valita käyttääkö tekstintunnistukseen Tesseractia vai Cuneiformia. Yagfilla voi muuntaa skannattuja tiedostoja tekstiksi tai skannata xsanen kautta paperilta.
tietoa: http://symmetrica.net/cuneiform-linux/yagf-en.html

jaripekka

  • Käyttäjä
  • Viestejä: 199
    • Profiili
    • Teneriffa, Puerto de la Cruz, Loro Parque
Vs: Ubuntu, skannaus ja tekstintunnistus
« Vastaus #4 : 01.11.13 - klo:23.38 »
Tesseract on tosiaan komentoriviltä käytettävä, kuten kamara kertoi. Sille on myös Ubuntun paketeissa graafinen edusohjelma Yagf.
Siinä voi valita käyttääkö tekstintunnistukseen Tesseractia vai Cuneiformia. Yagfilla voi muuntaa skannattuja tiedostoja tekstiksi tai skannata xsanen kautta paperilta.
tietoa: http://symmetrica.net/cuneiform-linux/yagf-en.html


Ei tuon nimistä pakettia löytynyt ainakaan omasta Ubuntun pakettivalikoimasta.

Vika/fiba

  • Käyttäjä
  • Viestejä: 661
    • Profiili
Vs: Ubuntu, skannaus ja tekstintunnistus
« Vastaus #5 : 02.11.13 - klo:13.11 »
Yagf löytyi Ubuntuun perustuvan Linux Mintin paketeista, joten hätiköidysti oletin sen löytyvän myös Ubuntun paketeista. PPAssakin oli paketteja vain Ubuntun vanhoille versioille. ???
Kokeile Teseractia komentoriviltä

nm

  • Käyttäjä
  • Viestejä: 16446
    • Profiili
Vs: Ubuntu, skannaus ja tekstintunnistus
« Vastaus #6 : 02.11.13 - klo:15.09 »
Ei tuon nimistä pakettia löytynyt ainakaan omasta Ubuntun pakettivalikoimasta.

Se on mukana jakelussa vasta Ubuntu 12.10:stä lähtien: http://packages.ubuntu.com/quantal/yagf

13.04:n paketti tuntui toimivan ihan hyvin omassa 12.04:ssäni. Asennus onnistuu esimerkiksi seuraavilla komennoilla. (Valitse 32- tai 64-bittinen paketti Ubuntu-asennuksesi mukaan. Jos et muista bittisyyttä, sen voi selvittää komennolla uname -p -- i386=32-bittinen, x86_64=64-bittinen.)

Riippuvuuksien asennus:

Koodia: [Valitse]
sudo apt-get install tesseract-ocr tesseract-ocr-fin aspell-fi
32-bittisen paketin lataus ja asennus:

Koodia: [Valitse]
wget http://fi.archive.ubuntu.com/ubuntu/pool/universe/y/yagf/yagf_0.9.2-1_i386.deb
sudo dpkg -i yagf_0.9.2-1_i386.deb

64-bittisen paketin lataus ja asennus:

Koodia: [Valitse]
wget http://fi.archive.ubuntu.com/ubuntu/pool/universe/y/yagf/yagf_0.9.2-1_amd64.deb
sudo dpkg -i yagf_0.9.2-1_amd64.deb


Muitakin Tesseract-käyttöliittymiä on kyllä olemassa: http://en.wikipedia.org/wiki/Tesseract_%28software%29#User_interfaces

Ainakin OCRFeeder on mukana Ubuntu 12.04:n ohjelmalähteissä ja siinä on omat hyvät puolensa YAGF:ään verrattuna. Kumpikaan ohjelma ei mielestäni ole erityisen loistava. Niistä puuttuu käyttöliittymä kunnolliseen kuvan esikäsittelyyn Tesseractia varten. OCRFeederissä sentään on tuki unpaper-esikäsittelijälle, mutta manuaaliset säädöt ovat puutteelliset. Oikoluku on molemmissa ohjelmissa huono.

aku506

  • Käyttäjä
  • Viestejä: 356
    • Profiili
Vs: Ubuntu, skannaus ja tekstintunnistus
« Vastaus #7 : 02.11.13 - klo:19.37 »
Xsane on skannausohjelma, mutta sen mukana näyttäisi tulevan myös tekstintunnistusohjelma. Ei ne koskaan kauhean hyvin toimi, mutta tuo toimi itselläni ainakin kohtuudella.