Kirjoittaja Aihe: Skannerikysymys (OCR) (Luettu 3420 kertaa)

jaripekka · « : 30.12.20 - klo:17.55 »

Tarvitsisin tiedon, onko Ubuntussa 18.04 LTS HELPPOA skannata SUOMEN KIELELLÄ niin, että lopputulos ei ole kuva vaan tekstiä. Olisi tärkeää, että äät ja ööt tulisivat oikein. Yritin etsiä hakutoiminnolla, mutta en löytänyt sellaista, että olisin siitä jotenkin hyötynyt. Englannin kielen taitoni on huono, joten ohjeessa ei saisi olla liikaa amerikankieltä.

Olen yleensä skannannut Epson-monitoimilaitteellani vain kuvamuotoon (jpg), mutta jos on useita sivuja tekstiä, haluaisin skannauksen olevan tekstitiedostoja, jolloin ne olisivat pienempiä kuin kuvat. Olen vuosia vuosia sitten jossain vanhassa tietokoneessani yrittänyt skannata tekstiksi, mutta lopputuloksessa oli niin paljon virheitä kirjaimissa, että sillä ei tehnyt mitään. Enää en muista, miten tuon onnistuin tekemään.

Kun äsken yritin teksimuotoa, tuli tällainen ilmoitus:

Failed to execute OCR command: gocr:
Tiedostoa tai hakemistoa ei ole

kamara · « **Vastaus #1 :** 30.12.20 - klo:18.52 »

Lainaus käyttäjältä: jaripekka - 30.12.20 - klo:17.55

Olen yleensä skannannut Epson-monitoimilaitteellani vain kuvamuotoon (jpg), mutta jos on useita sivuja tekstiä, haluaisin skannauksen olevan tekstitiedostoja, jolloin ne olisivat pienempiä kuin kuvat. Olen vuosia vuosia sitten jossain vanhassa tietokoneessani yrittänyt skannata tekstiksi, mutta lopputuloksessa oli niin paljon virheitä kirjaimissa, että sillä ei tehnyt mitään. Enää en muista, miten tuon onnistuin tekemään.

Laatu ei ole kovin hyvää, mutta pakettivarastoista löytyy ohjelmisto nimeltä:

Koodia: [Valitse]

tesseract-ocr-fin tesseract-ocr

Sillä saa joskus ihan kelvollistakin tulosta, mutta kyllä sitäkin pitää säätää eli skannausten tulee olla laadukkaita, jotta tulee edes jotakin luettavaa.

SuperOscar · « **Vastaus #2 :** 30.12.20 - klo:18.52 »

Lainaus käyttäjältä: jaripekka - 30.12.20 - klo:17.55

Failed to execute OCR command: gocr:
Tiedostoa tai hakemistoa ei ole

GOCR pitää varmaan ensin asentaa.

Tekstintunnistus on Linuxissa yhä ongelma, ei niinkään kuvanluku, johon on hyviä ohjelmia paljon. Tesseract lienee yhä paras, mutta aika kelvotonta jälkeä sekin tahtoo tehdä.

Itse käytän yleensä ikivanhaa versiota FineReaderista Windows XP -virtuaalikoneessa. FineReaderin valmistaja ABBYY on tosin tarjonnut tekstintunnistusmoottoriaan Linuxiinkin, mutta ei minkäänlaista käyttöliittymää, ja ohjelma on tietyn sivumäärän jälkeen maksullinen. Tosin moottoriakaan ei saanut ladatuksi, kun viimeksi yritin, mutta sivulla väitetyn mukaan sen piti palata ladattavaksi tuonnempana.

Ubuntu Suomen keskustelualueet

Uutiset:

Kirjoittaja Aihe: Skannerikysymys (OCR) (Luettu 3420 kertaa)

jaripekka

Skannerikysymys (OCR)

kamara

Vs: Skannerikysymys (OCR)

SuperOscar

Vs: Skannerikysymys (OCR)