Ubuntu Suomen keskustelualueet

Ubuntun käyttö => Ubuntu tietokoneissa => Aiheen aloitti: timvar - 22.02.10 - klo:21.00

Otsikko: Tesseract-ocr – pelkkien merkkien lukeminen?
Kirjoitti: timvar - 22.02.10 - klo:21.00
Moi!

Yritin tuolla Tesseractilla muuttaa kuva tekstiksi. Kuvassa teksti on suomeksi.
Tesseractilla käytin englantia ja saksaa, mutta molemmilla lopputulos oli vain
käsittämättömiä merkkijonoja. Ainoa sana, joka meni lähes oikein oli "lapsilla",
josta tuli "lapsclla".
Nyt siis mietin olisiko mahdollista muuttaa kuvaa tekstiksi merkki merkiltä,
eikä sanoina? Ja olisiko siitä apua vai onko olemassa jokin parempi/helpompi ratkaisu?
Oletan että käytössäni on uusimmat mahdolliset ohjelmat.
Otsikko: Vs: Tesseract-ocr – pelkkien merkkien lukeminen?
Kirjoitti: Jone - 22.02.10 - klo:22.01
Itse olen onnistunut lukemaan kuvan tekstiksi ocrad nimisellä ohjelmalla. Skannasin paperin .pgm muotoon mahdollisimman hyvällä laadulla ja siitä ocrad luki kirjaimet melko hyvin. Ohjelma tietääkseni lukee nimenomaan kirjain kerrallaan ja ääkkösetkin se osasi lukea oikein. Joukossa oli vain ylimääräisiä pisteitä sanojen väleissä ja tyhjissä riveissä, mutta skannerini ei ole erityisen hyvä, joten jo skannaus oli melko sotkuinen.. :-\

edit. ohjelman kotisivu: Ocrad - The GNU OCR (http://www.gnu.org/software/ocrad/)
Otsikko: Vs: Tesseract-ocr – pelkkien merkkien lukeminen?
Kirjoitti: timvar - 23.02.10 - klo:17.47
Kiitos!
Ocrad lukee kuvan tekstiksi kohtalaisen hyvin. Vain hieman virheitä, vaikka minulla ä ja ö ovatkin kysymysmerkkeinä.