Kirjoittaja Aihe: Hyvä OCR tekstintunnistusohjelma (Luettu 6097 kertaa)

Jormatapani · « : 17.02.16 - klo:12.50 »

Onko tietoa, mikä olisi "paras/sopiva" OCR tekstintunnistusohjelma. Olen kokeillut Ubuntun sovelluvalikoimasta löytyvät "OCRFeeder" ja "gscan2pdf" softat, mutta toiminta ja jälki on vähän
"mitä sattuu". "Abbyy ocr" voisi olla yksi varteenotettava vaihtoehto, mutta sitä ei löydy Ubuntun sovellusvalikoimasta, enkä saa sitä muutenkaan asennettua, onko jollain kokemusta tuosta Abbysta?

SuperOscar · « **Vastaus #1 :** 17.02.16 - klo:13.07 »

Lainaus käyttäjältä: Jormatapani - 17.02.16 - klo:12.50

"Abbyy ocr" voisi olla yksi varteenotettava vaihtoehto, mutta sitä ei löydy Ubuntun sovellusvalikoimasta, enkä saa sitä muutenkaan asennettua, onko jollain kokemusta tuosta Abbysta?

Veikkaisin, että Abbyy on teknisesti paras. Ainakin takavuosina FineReader teki aina Windows-puolella parasta tunnistusjälkeä, ja tuo Linux-puolelle heiltä saatava palikka on sen moottori ilman graafista käyttöliittymää. Harmi kyllä kukaan ei tunnu sellaista toteuttaneenkaan.

kamara · « **Vastaus #2 :** 17.02.16 - klo:13.42 »

Listasta uupui ilmeisesti vielä tesseract-ocr, joka tekee kohtuullista jälkeä.

En ole testannut Abbyytä, joten en osaa arvioida tekeekö paljonkin huonompaa jälkeä kuin Abbyy.

http://forum.ubuntu-fi.org/index.php?topic=48266.msg370375#msg370375

nm · « **Vastaus #3 :** 17.02.16 - klo:13.46 »

Lainaus käyttäjältä: Jormatapani - 17.02.16 - klo:12.50

Onko tietoa, mikä olisi "paras/sopiva" OCR tekstintunnistusohjelma. Olen kokeillut Ubuntun sovelluvalikoimasta löytyvät "OCRFeeder" ja "gscan2pdf" softat, mutta toiminta ja jälki on vähän
"mitä sattuu".

Avoimissa OCR-softissa tulosten laatu riippuu lähinnä OCR-kirjastosta/backendistä ja (manuaalisesta) esiprosessoinnista. Tesseract on paras
avoin OCR-moottori ja toisin kuin osa vaihtoehtoisista OCR-kirjastoista, se on opetettavissa, eli tarkkuutta on mahdollista parantaa luomalla omia kielipaketteja, jotka on opetettu sopivalla aineistolla. Tällä tavalla on mahdollista lukea hyvinkin erikoisia fontteja.
Valitettavasti Tesseractin oma opetuskäyttöliittymä on suunnattu lähinnä sovelluskehittäjille, eivätkä saatavilla olevat käyttöliittymätkään taida olla kovin kummoisia. Tässä pari linkkiä:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract
http://vietocr.sourceforge.net/training.html

Eri kielille on myös tarjolla valmiit kielipaketit, jotka on opetettu perusfonteilla. Jos luet suomenkielistä tekstiä, varmista, että paketti tesseract-ocr-fin on asennettuna, ja että käyttöliittymä asettaa kielen oikein (komentorivillä: tesseract -l fin). Toisaalta eng-kielipaketti lienee yleisesti paras ja laajimmalla aineistolla opetettu, joten sitäkin kannattaa kokeilla varsinkin, jos tekstissä ei ole skandeja. Ja ruotsia ja saksaa kannattaa testata.

Kuvan esiprosessointi on myös tärkeää. OCR toimii parhaiten tietyllä pikselikoolla ja puhtaalla hyväkontrastisella kuvalla. Frontend-ohjelma ei välttämättä tee tarvittavaa prosessointia puolestasi, tai saattaa tehdä jotain epäoptimaalisesti. Kannattaa ainakin kokeilla eri tarkkuuksilla skannattuja (300 dpi ja 150 dpi) tai sopivasti skaalattuja kuvia.

gscan2pdf:n kautta voi ilmeisesti käyttää myös OCRopusta, mutta minulla ei ole siitä kokemusta.

Vinkkinä Google Driven kautta voi käyttää Googlen OCR:ää (joka perustuu mm. Tesseractiin ja OCRopusiin): https://opensource.com/life/15/9/open-source-extract-text-images

Jormatapani · « **Vastaus #4 :** 17.02.16 - klo:20.27 »

Sain asennettua "abbyy ocr" terminaalin kautta, mutta mistä/miten sen saa käynnistettyä?

nm · « **Vastaus #5 :** 17.02.16 - klo:20.46 »

Lainaus käyttäjältä: Jormatapani - 17.02.16 - klo:20.27

Sain asennettua "abbyy ocr" terminaalin kautta, mutta mistä/miten sen saa käynnistettyä?

Se on komentoriviohjelma. Käynnistetään tähän tapaan:

Koodia: [Valitse]

abbyyocr11 -if kuva.jpg -f TextUnicodeDefaults -tet UTF8 -of teksti.txt
Käyttöohje: http://www.ocr4linux.com/en:documentation

Ubuntu Suomen keskustelualueet

Uutiset:

Kirjoittaja Aihe: Hyvä OCR tekstintunnistusohjelma (Luettu 6097 kertaa)

Jormatapani

Hyvä OCR tekstintunnistusohjelma

SuperOscar

Vs: Hyvä OCR tekstintunnistusohjelma

kamara

Vs: Hyvä OCR tekstintunnistusohjelma

nm

Vs: Hyvä OCR tekstintunnistusohjelma

Jormatapani

Vs: Hyvä OCR tekstintunnistusohjelma

nm

Vs: Hyvä OCR tekstintunnistusohjelma