Kirjoittaja Aihe: Hyvä OCR tekstintunnistusohjelma  (Luettu 4810 kertaa)

Jormatapani

  • Käyttäjä
  • Viestejä: 46
    • Profiili
Hyvä OCR tekstintunnistusohjelma
« : 17.02.16 - klo:12.50 »
Onko tietoa, mikä olisi "paras/sopiva" OCR tekstintunnistusohjelma. Olen kokeillut Ubuntun sovelluvalikoimasta löytyvät  "OCRFeeder" ja "gscan2pdf" softat, mutta toiminta ja  jälki on vähän
"mitä sattuu". "Abbyy ocr" voisi olla yksi varteenotettava vaihtoehto, mutta sitä ei löydy Ubuntun sovellusvalikoimasta, enkä saa sitä muutenkaan asennettua, onko jollain kokemusta tuosta Abbysta?

SuperOscar

  • Käyttäjä
  • Viestejä: 4064
  • Ocatarinetabellatsumtsum!
    • Profiili
    • Legisign.org
Vs: Hyvä OCR tekstintunnistusohjelma
« Vastaus #1 : 17.02.16 - klo:13.07 »
"Abbyy ocr" voisi olla yksi varteenotettava vaihtoehto, mutta sitä ei löydy Ubuntun sovellusvalikoimasta, enkä saa sitä muutenkaan asennettua, onko jollain kokemusta tuosta Abbysta?

Veikkaisin, että Abbyy on teknisesti paras. Ainakin takavuosina FineReader teki aina Windows-puolella parasta tunnistusjälkeä, ja tuo Linux-puolelle heiltä saatava palikka on sen moottori ilman graafista käyttöliittymää. Harmi kyllä kukaan ei tunnu sellaista toteuttaneenkaan.
pöytäkone 1, NUC: openSUSE Leap 15.6, kannettavat 1–3: Debian GNU/Linux 12; pöytäkone 2: openSUSE Tumbleweed; RPi 1: FreeBSD 14-RELEASE; RPi 2: LibreELEC 11

kamara

  • Käyttäjä
  • Viestejä: 3032
    • Profiili
Vs: Hyvä OCR tekstintunnistusohjelma
« Vastaus #2 : 17.02.16 - klo:13.42 »
Listasta uupui ilmeisesti vielä tesseract-ocr, joka tekee kohtuullista jälkeä.

En ole testannut Abbyytä, joten en osaa arvioida tekeekö paljonkin huonompaa jälkeä kuin Abbyy.

http://forum.ubuntu-fi.org/index.php?topic=48266.msg370375#msg370375

nm

  • Käyttäjä
  • Viestejä: 16430
    • Profiili
Vs: Hyvä OCR tekstintunnistusohjelma
« Vastaus #3 : 17.02.16 - klo:13.46 »
Onko tietoa, mikä olisi "paras/sopiva" OCR tekstintunnistusohjelma. Olen kokeillut Ubuntun sovelluvalikoimasta löytyvät  "OCRFeeder" ja "gscan2pdf" softat, mutta toiminta ja  jälki on vähän
"mitä sattuu".

Avoimissa OCR-softissa tulosten laatu riippuu lähinnä OCR-kirjastosta/backendistä ja (manuaalisesta) esiprosessoinnista. Tesseract on paras
avoin OCR-moottori ja toisin kuin osa vaihtoehtoisista OCR-kirjastoista, se on opetettavissa, eli tarkkuutta on mahdollista parantaa luomalla omia kielipaketteja, jotka on opetettu sopivalla aineistolla. Tällä tavalla on mahdollista lukea hyvinkin erikoisia fontteja.
Valitettavasti Tesseractin oma opetuskäyttöliittymä on suunnattu lähinnä sovelluskehittäjille, eivätkä saatavilla olevat käyttöliittymätkään taida olla kovin kummoisia. Tässä pari linkkiä:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
http://vietocr.sourceforge.net/training.html

Eri kielille on myös tarjolla valmiit kielipaketit, jotka on opetettu perusfonteilla. Jos luet suomenkielistä tekstiä, varmista, että paketti tesseract-ocr-fin on asennettuna, ja että käyttöliittymä  asettaa kielen oikein (komentorivillä: tesseract -l fin). Toisaalta eng-kielipaketti lienee yleisesti paras ja laajimmalla aineistolla opetettu, joten sitäkin kannattaa kokeilla varsinkin, jos tekstissä ei ole skandeja. Ja ruotsia ja saksaa kannattaa testata.

Kuvan esiprosessointi on myös tärkeää. OCR toimii parhaiten tietyllä pikselikoolla ja puhtaalla hyväkontrastisella kuvalla. Frontend-ohjelma ei välttämättä tee tarvittavaa prosessointia puolestasi, tai saattaa tehdä jotain epäoptimaalisesti. Kannattaa ainakin kokeilla eri tarkkuuksilla skannattuja (300 dpi ja 150 dpi) tai sopivasti skaalattuja kuvia.

gscan2pdf:n kautta voi ilmeisesti käyttää myös OCRopusta, mutta minulla ei ole siitä kokemusta.


Vinkkinä Google Driven kautta voi käyttää Googlen OCR:ää (joka perustuu mm. Tesseractiin ja OCRopusiin): https://opensource.com/life/15/9/open-source-extract-text-images
« Viimeksi muokattu: 17.02.16 - klo:13.50 kirjoittanut nm »

Jormatapani

  • Käyttäjä
  • Viestejä: 46
    • Profiili
Vs: Hyvä OCR tekstintunnistusohjelma
« Vastaus #4 : 17.02.16 - klo:20.27 »
Sain asennettua "abbyy ocr" terminaalin kautta, mutta mistä/miten sen saa käynnistettyä?

nm

  • Käyttäjä
  • Viestejä: 16430
    • Profiili
Vs: Hyvä OCR tekstintunnistusohjelma
« Vastaus #5 : 17.02.16 - klo:20.46 »
Sain asennettua "abbyy ocr" terminaalin kautta, mutta mistä/miten sen saa käynnistettyä?

Se on komentoriviohjelma. Käynnistetään tähän tapaan:

Koodia: [Valitse]
abbyyocr11 -if kuva.jpg -f TextUnicodeDefaults -tet UTF8 -of teksti.txt
Käyttöohje: http://www.ocr4linux.com/en:documentation