Jostain syystä tesseract ei käynnistynyt komentoriviltä, kun kopioin Asmon esimerkkejä. Kävin kaikki läpi vielä synapticin avulla ja asensin sieltä kyseiset paketit. Edelleen yagf valitti skannauksesta:
"Error during CMS conversion: Could not open scanner ICM profile:"
Sen jälkeen kokeilin gimagereaderia, joka skannasi kuvan moitteettomasti. Suomenkielisiä sanoja kyllä ilmestyi oikeanpuoleiseen kolumniin, mutta alekkain eikä dokumentistä saanut selvää.
Asetukset Gimagereaderilla oli silloin "hOCR PDF". Tein ilmeisesti jonkun virheen, sillä kun laitoin oletukseksi txt, se skannasi tekstin yhtä hyvin kuin Abbyy 10. Ny mietin, mikä olisi paras tapa muuttaa tiedosto pdf tiedostoksi. Ilmeisesti ainakin Libre Office tekee sen. Mutta pitäisi vielä kokeilla pystyykö gimagereader skannaamaa useampia sivuja yhdeksi tiedostoksi vaikka vain tekstitiedostoksi, sillä pdf olisi tietenkin parempi. Se ei minulle onnistunut ainakaan heti. Kun muunsin yhden sivun pdf-tiedostoksi, jouduin korjaamaarivin välejä. Ohjelma ei ihan vielä toimi yhtä hyvin kuin Abbyy, joka voi skannata ja tunnistaa monisivuisen dokumentin pdf, odt tai docx tiedostoiksi.
Voihan olla, että siinä on jo kaipaamani piirteet, ja etten minä ole vain osannut käyttää ohjelmaa vieläkään oikein. Mutta jos ei ole, se olisi hieno haaste ohjelmoijille tehdä siitä monisivuisen ja kyvyn muuntaa pdf-tiedostoksi. Yritin nimittäin skannata pelkäksi tekstitiedostoksi useampia sivuja. Jos käytin skanneria, oli jokainen sivu luettava ja tallennettava erillisenä tekstitiedostona. Yritin myös avata useampisivuisen kuva-pdf-tiedoston ja muuntaa sen tekstiksi. Ei onnistunut, ei pdf:nä eikä edes pitkänä txt-tiedostona. Tällaisena minulla on valitettavasti hyvin vähän käyttöä Gimagereaderille, koska useimmiten joudun skannaamaan monisivuisen asiakirjan. Skannatun tekstin laatu sen sijaan oli mielestäni yllättävän hyvää.
Jos monisivuiseen tekstin tunnistamiseen ei löydy Ubuntussa vielä ohjelmaa, niin Windows on minulle sen suhteen ilmeisesti ainoa vaihtoehto. Elän kuitenkin toivossa, että sellainen vielä löytyisi. Jos ei heti, jonkun ajan perästä!