Kirjoittaja Aihe: Tesseract-ocr – pelkkien merkkien lukeminen?  (Luettu 1327 kertaa)

timvar

  • Käyttäjä
  • Viestejä: 5
    • Profiili
Tesseract-ocr – pelkkien merkkien lukeminen?
« : 22.02.10 - klo:21.00 »
Moi!

Yritin tuolla Tesseractilla muuttaa kuva tekstiksi. Kuvassa teksti on suomeksi.
Tesseractilla käytin englantia ja saksaa, mutta molemmilla lopputulos oli vain
käsittämättömiä merkkijonoja. Ainoa sana, joka meni lähes oikein oli "lapsilla",
josta tuli "lapsclla".
Nyt siis mietin olisiko mahdollista muuttaa kuvaa tekstiksi merkki merkiltä,
eikä sanoina? Ja olisiko siitä apua vai onko olemassa jokin parempi/helpompi ratkaisu?
Oletan että käytössäni on uusimmat mahdolliset ohjelmat.
« Viimeksi muokattu: 22.02.10 - klo:21.20 kirjoittanut timvar »

Jone

  • Käyttäjä
  • Viestejä: 182
  • \,,/
    • Profiili
Vs: Tesseract-ocr – pelkkien merkkien lukeminen?
« Vastaus #1 : 22.02.10 - klo:22.01 »
Itse olen onnistunut lukemaan kuvan tekstiksi ocrad nimisellä ohjelmalla. Skannasin paperin .pgm muotoon mahdollisimman hyvällä laadulla ja siitä ocrad luki kirjaimet melko hyvin. Ohjelma tietääkseni lukee nimenomaan kirjain kerrallaan ja ääkkösetkin se osasi lukea oikein. Joukossa oli vain ylimääräisiä pisteitä sanojen väleissä ja tyhjissä riveissä, mutta skannerini ei ole erityisen hyvä, joten jo skannaus oli melko sotkuinen.. :-\

edit. ohjelman kotisivu: Ocrad - The GNU OCR
« Viimeksi muokattu: 22.02.10 - klo:22.04 kirjoittanut Jone »

timvar

  • Käyttäjä
  • Viestejä: 5
    • Profiili
Vs: Tesseract-ocr – pelkkien merkkien lukeminen?
« Vastaus #2 : 23.02.10 - klo:17.47 »
Kiitos!
Ocrad lukee kuvan tekstiksi kohtalaisen hyvin. Vain hieman virheitä, vaikka minulla ä ja ö ovatkin kysymysmerkkeinä.