Kirjoittaja Aihe: Tesseract-ocr – pelkkien merkkien lukeminen? (Luettu 2425 kertaa)

timvar · « : 22.02.10 - klo:21.00 »

Moi!

Yritin tuolla Tesseractilla muuttaa kuva tekstiksi. Kuvassa teksti on suomeksi.
Tesseractilla käytin englantia ja saksaa, mutta molemmilla lopputulos oli vain
käsittämättömiä merkkijonoja. Ainoa sana, joka meni lähes oikein oli "lapsilla",
josta tuli "lapsclla".
Nyt siis mietin olisiko mahdollista muuttaa kuvaa tekstiksi merkki merkiltä,
eikä sanoina? Ja olisiko siitä apua vai onko olemassa jokin parempi/helpompi ratkaisu?
Oletan että käytössäni on uusimmat mahdolliset ohjelmat.

Jone · « **Vastaus #1 :** 22.02.10 - klo:22.01 »

Itse olen onnistunut lukemaan kuvan tekstiksi ocrad nimisellä ohjelmalla. Skannasin paperin .pgm muotoon mahdollisimman hyvällä laadulla ja siitä ocrad luki kirjaimet melko hyvin. Ohjelma tietääkseni lukee nimenomaan kirjain kerrallaan ja ääkkösetkin se osasi lukea oikein. Joukossa oli vain ylimääräisiä pisteitä sanojen väleissä ja tyhjissä riveissä, mutta skannerini ei ole erityisen hyvä, joten jo skannaus oli melko sotkuinen.. $:-\$

edit. ohjelman kotisivu: Ocrad - The GNU OCR

timvar · « **Vastaus #2 :** 23.02.10 - klo:17.47 »

Kiitos!
Ocrad lukee kuvan tekstiksi kohtalaisen hyvin. Vain hieman virheitä, vaikka minulla ä ja ö ovatkin kysymysmerkkeinä.

Ubuntu Suomen keskustelualueet

Uutiset:

Kirjoittaja Aihe: Tesseract-ocr – pelkkien merkkien lukeminen? (Luettu 2425 kertaa)

timvar

Tesseract-ocr – pelkkien merkkien lukeminen?

Jone

Vs: Tesseract-ocr – pelkkien merkkien lukeminen?

timvar

Vs: Tesseract-ocr – pelkkien merkkien lukeminen?