Kirjoittaja Aihe: Tekstin tunnistusohjelmat Ubuntuun (RATKAISTU)  (Luettu 4658 kertaa)

Pontus12

  • Käyttäjä
  • Viestejä: 2499
    • Profiili
Tekstin tunnistusohjelmat Ubuntuun (RATKAISTU)
« : 21.08.19 - klo:15.26 »
Asensin tesseractin ja yritin skannata sillä käyttäen yagfia. Ei tunnistanut scanneria, vaikka Xsane tunnisti samoin kuin simplescan, joka taitaa suomenkielisessä Ubuntussa olevan sama kuin Kuvanluku-ohjelma.
Netistä löysin ilmaisia tekstintunnistusohjelmia, jotka ilmoittivat tuhoavansa tiedostot asiakkaan poistuttua. Kokeilin Light pdf ohjelmaa. Tavallisela ilmaisella ohjelmalla tunnistus jää lyhyeen, jolloin pitää hankkia maksullinen vip-versio.
Voin kyllä maksaa suomenkielisen tekstin tunnistusohjelmasta. Minulla oli Wnidows 95 versiossa maksullinen, jota käytin Virtualboxin kautta. Nyt Oracle virtualbolx ei suostunut enää avaamaan ysivitosta, Olisiko jollain neuvoja tai ehdotuksia?
« Viimeksi muokattu: 25.08.19 - klo:19.27 kirjoittanut Pontus12 »

SuperOscar

  • Käyttäjä
  • Viestejä: 4064
  • Ocatarinetabellatsumtsum!
    • Profiili
    • Legisign.org
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #1 : 21.08.19 - klo:15.54 »
Ylivoimaisesti paras tekstintunnistusohjelma on ABBYYn FineReader, joka ei koskaan ole saapunut Linuxiin. Sen OCR-moottori, jota komentoriviltä voi käyttää, on kuitenkin ollut (maksullisessa) jakelussa:

https://ocr4linux.com/en:start

Viimeksi kun oli tarvis, oli kuitenkin joku huoltokatkos tms., joka esti lataamisen. Kokeile.
pöytäkone 1, NUC: openSUSE Leap 15.6, kannettavat 1–3: Debian GNU/Linux 12; pöytäkone 2: openSUSE Tumbleweed; RPi 1: FreeBSD 14-RELEASE; RPi 2: LibreELEC 11

Roberto

  • Käyttäjä
  • Viestejä: 185
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #2 : 21.08.19 - klo:16.50 »
Kokeilin gimagereader ohjelmaa ja sillä toimi skannaus ja myös kuvan avaus suoraan levyltä.
Jälki on ihan siedettävää.
tesseract-ocr-fin paketti on asennettu.
Canon CanonScan Lide20, Ubuntu 18.04.3, kernel 5.0.0-25
Dell OptiPlex 7470 (All in One), i5-9500 (6) @ 4,4 GHz, 32 Gt DDR4, Samsung 980 (PCIe NVMe M.2 SSD 2280) 500 Gt
Jäähyllä olevat: Amiga 500, C64

Pontus12

  • Käyttäjä
  • Viestejä: 2499
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #3 : 21.08.19 - klo:18.24 »
Ohjelma skannasi hyvin, mutta kun sen piti tunnistaa teksti, niin se tiputti 4/5 osaa tekstiä pois. Kuvan se skannasi moitteettomasti. Kokeilin sekä pdf ja txt tiedostoina. Ei vaikutusta. Kieliasetus oli fi ja muuten annoin mennä oletusasetuksilla. Kokeilin myös vaihtaa 1200 dpi 600dpi. mutta ei sekään muuttanut tilannetta.

Roberto

  • Käyttäjä
  • Viestejä: 185
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #4 : 21.08.19 - klo:19.08 »
Kopioin ylläolevan tekstin ja lisäsin pari rivinvaihtoa.
Kaappasin siitä kuvan näytöltä ja tallensi koneelle png kuvaksi.
gimagereader luki kuvan ja irroitti siitä tekstin.
Tässä tulos:
Ohjelma skannasi hyvin, mutta kun sen piti tunnistaa teksti,

niin se tiputti 4/5 osaa tekstiä pois. Kuvan se skannasi moitteettomasti.

Kokeilin sekä pdf ja txt tiedostoina. Ei vaikutusta. Kieliasetus oli fi ja muuten annoin mennä oletusasetuksilla.
Kokeilin myös vaihtaa 1200 dpi 600dpi. mutta ei sekään muuttanut tilannetta.
Dell OptiPlex 7470 (All in One), i5-9500 (6) @ 4,4 GHz, 32 Gt DDR4, Samsung 980 (PCIe NVMe M.2 SSD 2280) 500 Gt
Jäähyllä olevat: Amiga 500, C64

nm

  • Käyttäjä
  • Viestejä: 16430
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #5 : 21.08.19 - klo:20.27 »
Ohjelma skannasi hyvin, mutta kun sen piti tunnistaa teksti, niin se tiputti 4/5 osaa tekstiä pois. Kuvan se skannasi moitteettomasti. Kokeilin sekä pdf ja txt tiedostoina. Ei vaikutusta. Kieliasetus oli fi ja muuten annoin mennä oletusasetuksilla. Kokeilin myös vaihtaa 1200 dpi 600dpi. mutta ei sekään muuttanut tilannetta.

400 tai 600 dpi:tä riittää kyllä yleensä hyvin. Pystytkö jakamaan esimerkkikuvan, joka ei tunnistu kunnolla?

Pontus12

  • Käyttäjä
  • Viestejä: 2499
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #6 : 24.08.19 - klo:14.58 »
Perusongelma on ilmeisesti minun Xsane ohjelmassa. sama viesti tulee, vaikka käynnistän Xsanen erikseen ilman Yagfia. Error-viesti: ei voinut käynnistää ICM profiilia. Tallensin spectaclella kuvan, mutta en löytänyt sitä. Se tallensi ilmeisesti sane tai xsane hakemistoon, mutta en löytänyt niitäkään. Simplescan toimii koneessani.

Roberto

  • Käyttäjä
  • Viestejä: 185
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #7 : 24.08.19 - klo:15.22 »
Mikä ohjelma käynnistyy kun painat PrintScreen nappia näppäimistöltä?
Dell OptiPlex 7470 (All in One), i5-9500 (6) @ 4,4 GHz, 32 Gt DDR4, Samsung 980 (PCIe NVMe M.2 SSD 2280) 500 Gt
Jäähyllä olevat: Amiga 500, C64

Pontus12

  • Käyttäjä
  • Viestejä: 2499
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #8 : 24.08.19 - klo:15.45 »
Kun painan Print screeniä näppäimistöllä, käynnistyy spectacle kaapausohjelma.

Roberto

  • Käyttäjä
  • Viestejä: 185
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #9 : 24.08.19 - klo:16.07 »
Eikö siitä näe kuvan tallennus polkua?
Minulla on ubuntu mate jossa se ei ole käytössä eli en näe itse nyt.
Muokkaus:
Kun käynnistän valikosta kuvankaappauksen niin käynnistyy mate-screenshot.
Sillä voi samalla rajata kaapattavan alueen niin ei tarvitse koko näyttöä kaapata.
Muokkaus 2:
xsane ongelmaan voisi auttaa tämä:
Avaa xsane ja tarkista että Asetukset valikossa ei ole ruksia kohdassa Enable color management
Jos on niin ota pois ja kokeile uudelleen skannata.
« Viimeksi muokattu: 24.08.19 - klo:16.30 kirjoittanut Roberto »
Dell OptiPlex 7470 (All in One), i5-9500 (6) @ 4,4 GHz, 32 Gt DDR4, Samsung 980 (PCIe NVMe M.2 SSD 2280) 500 Gt
Jäähyllä olevat: Amiga 500, C64

Pontus12

  • Käyttäjä
  • Viestejä: 2499
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #10 : 24.08.19 - klo:17.34 »
Skannaus ei ole ongelma, vaan tekstintunnistus. Skannata voi monella ohjelmalla linuxissa joko txt tai pdf muotoon tai jos haluaa voi skannata png kuvaksi. Minulle riittäisi se, että linuxista löytyisi ohjelma, jolla kuvapdf:n voi lukea tekstiksi. Minulla on Windowsissa ollut monta vuotta Abbyy Finereader ensin 9 ja sitten 10. Olen käyttänyt sitä Oraclen virtualboxissa ja  siihen asennetussa Windows XP:ssä. Tähän asti olen saanut sen aina toimimaan, sillä olen tallentanut kyseisen vdi kovalevyn ja koko Virtualboxin usb-levylle. Nyt ei onnistunut. XP ei lähtenyt enää käyntiin. Ehkä tiedosto on vioittunut,

Kun yritin asentaa Abbyyn Windowsiin, ohjelma kertoi, että se on minulla käytössä toisessa koneessa. Ei ole, sillä toinen kone on kokonaan linuxkone. Ehkä Abbyyn käyttäminen onnistuu, kun saan vastauksen heiltä. Mieluiten kjitenkin käyttäisin linux-ohjelmaa, jos riittävän hyvä löytyisi. Tiedän kuten Super Oscar jo vastasikin Abbyyn löytyvän myös Linuxille, mutta haluan käyttää graafista sovellusta.

Tomin

  • Palvelimen ylläpitäjä
  • Käyttäjä / moderaattori+
  • Viestejä: 11481
    • Profiili
    • Tomin kotisivut
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #11 : 24.08.19 - klo:19.05 »
Vilkaisepas huviksesi mikä virtualisointi (paravirtualization interface) on VirtualBoxissa käytössä. Jos se on automaattinen, niin kokeile Legacy-asetusta. Se löytyy virtuaalikoneen asetuksista yleisasetuksien kihdytysvälilehdeltä (Acceleration).

https://www.virtualbox.org/manual/ch03.html#settings-acceleration
Automaattinen allekirjoitus:
Lisäisitkö [RATKAISTU] ketjun ensimmäisen viestin aiheeseen ongelman ratkettua, kiitos.

Asmo Koskinen

  • Käyttäjä
  • Viestejä: 4443
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #12 : 24.08.19 - klo:21.09 »
En oikein voi moittia gImageReaderia/Tesseractia. Olen lukenut tekstejä (en ja fi) Pootleen käännösprojekteja varten. Minusta fi toimii aivan loistavasti. Kuvakaappaus ohessa. Skannaan png-muotoon.

Koodia: [Valitse]
asmok@Ubuntu-Laptop:~$ dpkg -l | grep ocr
ii  gimagereader 3.3.0-1 amd64 Graphical GTK+ front-end to tesseract-ocr
ii  tesseract-ocr 4.0.0-2 amd64 Tesseract command line OCR tool
ii  tesseract-ocr-eng 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for English
ii  tesseract-ocr-fin 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for Finnish
ii  tesseract-ocr-osd 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for script and orientation

Ystävällisin terveisin Asmo Koskinen.

Asmo Koskinen

  • Käyttäjä
  • Viestejä: 4443
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #13 : 25.08.19 - klo:12.08 »
Koodia: [Valitse]
asmok@Ubuntu-Laptop:~$ dpkg -l | grep ocr
ii  gimagereader 3.3.0-1 amd64 Graphical GTK+ front-end to tesseract-ocr
ii  tesseract-ocr 4.0.0-2 amd64 Tesseract command line OCR tool
ii  tesseract-ocr-eng 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for English
ii  tesseract-ocr-fin 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for Finnish
ii  tesseract-ocr-osd 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for script and orientation

https://github.com/tesseract-ocr/tesseract/wiki

https://launchpad.net/~alex-p/+archive/ubuntu/tesseract-ocr

Koodia: [Valitse]
ii  tesseract-ocr 4.1.0-1ppa1~disco1 amd64 Tesseract command line OCR tool
Ystävällisin terveisin Asmo Koskinen.

Pontus12

  • Käyttäjä
  • Viestejä: 2499
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #14 : 25.08.19 - klo:14.30 »
Legacy asetus ei auttanut ja näyttö oli minulla vboxVga. Joten virtualbox ei ilmeisesti toimi vanhan 95:kanssa tai tiedostossani on jotain vioittunut. Tarvitsin 95:ttä vain skannaukseen. Kokeilen vielä tänään gimp skannausta Asmon ystävällisten neuvojen avulla.

Pontus12

  • Käyttäjä
  • Viestejä: 2499
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #15 : 25.08.19 - klo:15.18 »
Jostain syystä tesseract ei käynnistynyt komentoriviltä, kun kopioin Asmon esimerkkejä. Kävin kaikki läpi vielä synapticin avulla ja asensin sieltä kyseiset paketit. Edelleen yagf valitti skannauksesta:
 "Error during CMS conversion: Could not open scanner ICM profile:"

Sen jälkeen kokeilin gimagereaderia, joka skannasi kuvan moitteettomasti. Suomenkielisiä sanoja kyllä ilmestyi oikeanpuoleiseen kolumniin, mutta alekkain eikä dokumentistä saanut selvää.

Asetukset Gimagereaderilla oli silloin "hOCR PDF". Tein ilmeisesti jonkun virheen, sillä kun laitoin oletukseksi txt, se skannasi tekstin yhtä hyvin kuin Abbyy 10. Ny mietin, mikä olisi paras tapa muuttaa tiedosto pdf tiedostoksi. Ilmeisesti ainakin Libre Office tekee sen. Mutta pitäisi vielä kokeilla pystyykö gimagereader skannaamaa useampia sivuja yhdeksi tiedostoksi vaikka vain tekstitiedostoksi, sillä pdf olisi tietenkin parempi. Se ei minulle onnistunut ainakaan heti. Kun muunsin yhden sivun pdf-tiedostoksi, jouduin korjaamaarivin välejä. Ohjelma ei ihan vielä toimi yhtä hyvin kuin Abbyy, joka voi skannata ja tunnistaa monisivuisen dokumentin pdf, odt tai docx tiedostoiksi.
Voihan olla, että siinä on jo kaipaamani piirteet, ja etten minä ole vain osannut käyttää ohjelmaa vieläkään oikein. Mutta jos ei ole, se olisi hieno haaste ohjelmoijille tehdä siitä monisivuisen ja kyvyn muuntaa pdf-tiedostoksi. Yritin nimittäin skannata pelkäksi tekstitiedostoksi useampia sivuja. Jos käytin skanneria, oli jokainen sivu luettava ja tallennettava erillisenä tekstitiedostona. Yritin myös avata useampisivuisen kuva-pdf-tiedoston ja muuntaa sen tekstiksi. Ei onnistunut, ei pdf:nä eikä edes pitkänä txt-tiedostona. Tällaisena minulla on valitettavasti hyvin vähän käyttöä Gimagereaderille, koska useimmiten joudun skannaamaan monisivuisen asiakirjan. Skannatun tekstin laatu sen sijaan oli mielestäni yllättävän hyvää.

Jos monisivuiseen tekstin tunnistamiseen ei löydy Ubuntussa vielä ohjelmaa, niin Windows on minulle sen suhteen ilmeisesti ainoa vaihtoehto. Elän kuitenkin toivossa, että sellainen vielä löytyisi. Jos ei heti, jonkun ajan perästä!
« Viimeksi muokattu: 25.08.19 - klo:16.59 kirjoittanut Pontus12 »

Roberto

  • Käyttäjä
  • Viestejä: 185
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #16 : 25.08.19 - klo:18.48 »
Kyllä xsane ohjelman ylävalikosta voi valita Multipage kohdan.
Valmis pdf tiedosto tallentuu kotihakemistoon.
Kokeilin ja toimii.
gimageReader ohjelma osaa avata monisivuisen pdf tiedoston.
Testasin 8 sivuisella pdf tiedostolla ja tunnistus toimi virheettömästi.
Dell OptiPlex 7470 (All in One), i5-9500 (6) @ 4,4 GHz, 32 Gt DDR4, Samsung 980 (PCIe NVMe M.2 SSD 2280) 500 Gt
Jäähyllä olevat: Amiga 500, C64

Pontus12

  • Käyttäjä
  • Viestejä: 2499
    • Profiili
Vs: Tekstin tunnistusohjelmat Ubuntuun
« Vastaus #17 : 25.08.19 - klo:19.26 »
Olet aivan oikeassa. Kokeilin itsekin uudelleen eri asetuksilla monta kertaan ja lopulta onnistuin. Kiitos kaikille.