Kirjoittaja Aihe: Skannerikysymys (OCR)  (Luettu 1748 kertaa)

jaripekka

  • Käyttäjä
  • Viestejä: 199
    • Profiili
    • Teneriffa, Puerto de la Cruz, Loro Parque
Skannerikysymys (OCR)
« : 30.12.20 - klo:17.55 »
Tarvitsisin tiedon, onko Ubuntussa 18.04 LTS HELPPOA skannata SUOMEN KIELELLÄ niin, että lopputulos ei ole kuva vaan tekstiä. Olisi tärkeää, että äät ja ööt tulisivat oikein. Yritin etsiä hakutoiminnolla, mutta en löytänyt sellaista, että olisin siitä jotenkin hyötynyt. Englannin kielen taitoni on huono, joten ohjeessa ei saisi olla liikaa amerikankieltä.

Olen yleensä skannannut Epson-monitoimilaitteellani vain kuvamuotoon (jpg), mutta jos on useita sivuja tekstiä, haluaisin skannauksen olevan tekstitiedostoja, jolloin ne olisivat pienempiä kuin kuvat. Olen vuosia vuosia sitten jossain vanhassa tietokoneessani yrittänyt skannata tekstiksi, mutta lopputuloksessa oli niin paljon virheitä kirjaimissa, että sillä ei tehnyt mitään. Enää en muista, miten tuon onnistuin tekemään.

Kun äsken yritin teksimuotoa, tuli tällainen ilmoitus:

Failed to execute OCR command: gocr:
Tiedostoa tai hakemistoa ei ole

kamara

  • Käyttäjä
  • Viestejä: 3032
    • Profiili
Vs: Skannerikysymys (OCR)
« Vastaus #1 : 30.12.20 - klo:18.52 »
Olen yleensä skannannut Epson-monitoimilaitteellani vain kuvamuotoon (jpg), mutta jos on useita sivuja tekstiä, haluaisin skannauksen olevan tekstitiedostoja, jolloin ne olisivat pienempiä kuin kuvat. Olen vuosia vuosia sitten jossain vanhassa tietokoneessani yrittänyt skannata tekstiksi, mutta lopputuloksessa oli niin paljon virheitä kirjaimissa, että sillä ei tehnyt mitään. Enää en muista, miten tuon onnistuin tekemään.

Laatu ei ole kovin hyvää, mutta pakettivarastoista löytyy ohjelmisto nimeltä:
Koodia: [Valitse]
tesseract-ocr-fin tesseract-ocr

Sillä saa joskus ihan kelvollistakin tulosta, mutta kyllä sitäkin pitää säätää eli skannausten tulee olla laadukkaita, jotta tulee edes jotakin luettavaa.

SuperOscar

  • Käyttäjä
  • Viestejä: 4063
  • Ocatarinetabellatsumtsum!
    • Profiili
    • Legisign.org
Vs: Skannerikysymys (OCR)
« Vastaus #2 : 30.12.20 - klo:18.52 »
Failed to execute OCR command: gocr:
Tiedostoa tai hakemistoa ei ole

GOCR pitää varmaan ensin asentaa.

Tekstintunnistus on Linuxissa yhä ongelma, ei niinkään kuvanluku, johon  on hyviä ohjelmia paljon. Tesseract lienee yhä paras, mutta aika kelvotonta jälkeä sekin tahtoo tehdä.

Itse käytän yleensä ikivanhaa versiota FineReaderista Windows XP -virtuaalikoneessa. FineReaderin valmistaja ABBYY on tosin tarjonnut tekstintunnistusmoottoriaan Linuxiinkin, mutta ei minkäänlaista käyttöliittymää, ja ohjelma on tietyn sivumäärän jälkeen maksullinen. Tosin moottoriakaan ei saanut ladatuksi, kun viimeksi yritin, mutta sivulla väitetyn mukaan sen piti palata ladattavaksi tuonnempana.
pöytäkone 1, NUC: openSUSE Leap 15.6, kannettavat 1–3: Debian GNU/Linux 12; pöytäkone 2: openSUSE Tumbleweed; RPi 1: FreeBSD 14-RELEASE; RPi 2: LibreELEC 11