Onko tietoa, mikä olisi "paras/sopiva" OCR tekstintunnistusohjelma. Olen kokeillut Ubuntun sovelluvalikoimasta löytyvät "OCRFeeder" ja "gscan2pdf" softat, mutta toiminta ja jälki on vähän
"mitä sattuu".
Avoimissa OCR-softissa tulosten laatu riippuu lähinnä OCR-kirjastosta/backendistä ja (manuaalisesta) esiprosessoinnista. Tesseract on paras
avoin OCR-moottori ja toisin kuin osa vaihtoehtoisista OCR-kirjastoista, se on opetettavissa, eli tarkkuutta on mahdollista parantaa luomalla omia kielipaketteja, jotka on opetettu sopivalla aineistolla. Tällä tavalla on mahdollista lukea hyvinkin erikoisia fontteja.
Valitettavasti Tesseractin oma opetuskäyttöliittymä on suunnattu lähinnä sovelluskehittäjille, eivätkä saatavilla olevat käyttöliittymätkään taida olla kovin kummoisia. Tässä pari linkkiä:
https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseracthttp://vietocr.sourceforge.net/training.htmlEri kielille on myös tarjolla valmiit kielipaketit, jotka on opetettu perusfonteilla. Jos luet suomenkielistä tekstiä, varmista, että paketti tesseract-ocr-fin on asennettuna, ja että käyttöliittymä asettaa kielen oikein (komentorivillä: tesseract
-l fin). Toisaalta eng-kielipaketti lienee yleisesti paras ja laajimmalla aineistolla opetettu, joten sitäkin kannattaa kokeilla varsinkin, jos tekstissä ei ole skandeja. Ja ruotsia ja saksaa kannattaa testata.
Kuvan esiprosessointi on myös tärkeää. OCR toimii parhaiten tietyllä pikselikoolla ja puhtaalla hyväkontrastisella kuvalla. Frontend-ohjelma ei välttämättä tee tarvittavaa prosessointia puolestasi, tai saattaa tehdä jotain epäoptimaalisesti. Kannattaa ainakin kokeilla eri tarkkuuksilla skannattuja (300 dpi ja 150 dpi) tai sopivasti skaalattuja kuvia.
gscan2pdf:n kautta voi ilmeisesti käyttää myös
OCRopusta, mutta minulla ei ole siitä kokemusta.
Vinkkinä Google Driven kautta voi käyttää Googlen OCR:ää (joka perustuu mm. Tesseractiin ja OCRopusiin):
https://opensource.com/life/15/9/open-source-extract-text-images