Kirjoittaja Aihe: OCR -tekstintunnistuohjelma (vinkki)  (Luettu 2362 kertaa)

Maula

  • Käyttäjä
  • Viestejä: 84
    • Profiili
OCR -tekstintunnistuohjelma (vinkki)
« : 26.03.11 - klo:14.58 »
Eksyin Hamrickin sivuille katsomaan Vuescan-ohjelmaa. Heillä on Vuescan-skannausohjelmasta paketit myös Linuxiin. Latasin demoversion ja tuuppasin tuon mun 50e HP:n koneeseen kiinni. Demoversio vesileimaa kuvat käyttökelvottomiksi mutta se OCR-puoli toimii...siedettävästi. Ääkkösiä se ei valitettavasti tunnista mutta muutoin tekstintunnistus oli ehkä joihinkin tarpeisiin hyväksyttävällä tasolla. Tunnistusta paransi kun nostin dpi:n 1200. Palstoitettu teksti saattaa tuottaa ongelmia. Jos skannattava teskti on vinossa, tarkkuus kärsii olennaisesti.

Jos pitää pikaisesti muuttaa pari tekstiarkkia tekstiksi, tuosta voi olla apua. Teksturilla voi sitten antaa oikoluvun ehdotella korjaukset.

En tiedä millä tasolla Linuxin omat OCR-softat ovat tällä hetkellä, mutta parisen vuotta sitten kun niitä tutkin, ne eivät kovin hyviä olleet. (ainakaan kokeilemani)

Tuota ei tarvitse asentaa sen kummemmin. Sen kuin purkaa tar:in ja kilkkaa ohjelman käyntiin.

Itse kokeilin tuota 64bit 10.04 LTS:ssä vaikka taisivat mainita sen paketin olevan 10.10:iin. Hinta ei ole kovin paha tuolle standard-versiolle: 40 dollaria.

http://www.hamrick.com/

Alla cp:tä Elixairin skannatusta manuaalista. Vaikka teksti näyttää hassulta, ei siinä ole muuta vikaa kuin ääkköset.

Huoneilman epépuhtaudet koostuvat
piiéosin iimassa leijuvista hiukkasista.
Niiméi voivat olla esim. nokea, savua, sii-
tepélyi ia eléimisté irtoavaa hilsetté yms.
Osa hiukkasista néikyy paljaalla silméllé,
mutta merkittivi osa on niin pienié, ettéi
ne eivét néy. Kuitenkin niméi pienimméit
hiukkaset ovat usein kaikkein haitalli-
simpia ja saatavat aiheuttaa hengitysil-
man mukana erilaisia allergisia reak-
tioita.

l Varatut hiukkaset kuikeutuvat ilma-
virrassa kennon keruuosaan, jossa ne
tarttuvat voimakkaan siihkékentén (4
kV) vaikutuksesta keruulevyihin, samaan
tapaan kuin magneetti vetiié puoleensa
rautajauhoa. Némé hiukkaset takertuvat
metallilevyihin ja pysyvét niissé kunnes
kenno pestéién.

K-Veikko

  • Käyttäjä
  • Viestejä: 309
    • Profiili
Vs: OCR -tekstintunnistuohjelma (vinkki)
« Vastaus #1 : 26.03.11 - klo:19.45 »
Satunnaiseen OCR-tekstintunnistukseen voi käyttää Google Docs'ia.

* Muunna kuva pdf tiedostoksi. (Esim Tulosta -> pdf-tiedostoon.)
* Lataa tiedosto Google Docs'iin.
* Klikkaa ruksi päälle: "Muunna PDF- tai kuvatiedostojen sisältämä teksti Google-dokumenteiksi. Miten se toimii?"

Nyt sinulla on tuo pdf tiedosto Google Docs'issa sekä pdf'nä että tekstinä. Google käyttänee Tesseract OCR-ohjelmaa, joka löytyy myös repoista, mutta ei Suomen kielitiedostoa.

Lisäys:
Ilmeisesti ei tarvitse edes muuntaa pdf'ksi, en ole kokeillut.
« Viimeksi muokattu: 26.03.11 - klo:19.55 kirjoittanut K-Veikko »

Maula

  • Käyttäjä
  • Viestejä: 84
    • Profiili
Vs: OCR -tekstintunnistuohjelma (vinkki)
« Vastaus #2 : 26.03.11 - klo:21.58 »
Katsohan perhanaa, niin tekeekin. Latasin Google Docseihin jpeg-skannauksen yhdestä manuaalista jota joskus vuosi pari sitten koetin tunnistuttaa tekstiksi. Tuolloin paha ongelma oli harmaalla pohjalla oleva teksti, joka sekoitti kokeilemani ohjelmat. Google hoiti homman niiltä osin tyylikkäästi kotiin. Pari virhettä näkyy olevan ja tekstin seassa olevat kuvat (symbolit) sekoittavat hiukan tilannetta mutta paremminhan Google tuon hoitaa kuin Vuescan. Hienoa!

Mietiskelinkin tuolloin että tuo OCR-tunnistus olisi toiminto joka sopisi Googlelle kuin nakutettu.

cp:tä:

------x---------x--------

10.00
Johdanto Ohjeita käyttäjälle
Yleisiä ohjeita
Kyseessä on ohjelmointimanuaali, jossa on kuvattu kaikki tärkeät ohjelmoinnin vaiheet.
Käyttöohjeen tulisi olla apuna ja muistin tukena ohjelmoijalle, joka ehkä haluaa palauttaa mieleen jonkun han/oin käyttämänsä käskyn tai tarkistaa jonkun parametrin merkityksen.
Siksi tekstiä on vähän! Ja periaatteessa helposti ymmärrettävää.
Suosittelemme kuitenkin tutustumista käytettyihin symboleihin, sillä se helpottaa käyttöohjeen ymmärtämistä.
Symbolit
FI M
EL I
antaa Iisäohjeen tai taustainformaatiota.
viittaa vaaratiianteisiin, virhelähteisiin tai yleisiin ongelmiin.