Kirjoittaja Aihe: Tekstin tunnistusohjelmat Ubuntuun (RATKAISTU) (Luettu 8102 kertaa)

Pontus12 · « : 21.08.19 - klo:15.26 »

Asensin tesseractin ja yritin skannata sillä käyttäen yagfia. Ei tunnistanut scanneria, vaikka Xsane tunnisti samoin kuin simplescan, joka taitaa suomenkielisessä Ubuntussa olevan sama kuin Kuvanluku-ohjelma.
Netistä löysin ilmaisia tekstintunnistusohjelmia, jotka ilmoittivat tuhoavansa tiedostot asiakkaan poistuttua. Kokeilin Light pdf ohjelmaa. Tavallisela ilmaisella ohjelmalla tunnistus jää lyhyeen, jolloin pitää hankkia maksullinen vip-versio.
Voin kyllä maksaa suomenkielisen tekstin tunnistusohjelmasta. Minulla oli Wnidows 95 versiossa maksullinen, jota käytin Virtualboxin kautta. Nyt Oracle virtualbolx ei suostunut enää avaamaan ysivitosta, Olisiko jollain neuvoja tai ehdotuksia?

SuperOscar · « **Vastaus #1 :** 21.08.19 - klo:15.54 »

Ylivoimaisesti paras tekstintunnistusohjelma on ABBYYn FineReader, joka ei koskaan ole saapunut Linuxiin. Sen OCR-moottori, jota komentoriviltä voi käyttää, on kuitenkin ollut (maksullisessa) jakelussa:

https://ocr4linux.com/en:start

Viimeksi kun oli tarvis, oli kuitenkin joku huoltokatkos tms., joka esti lataamisen. Kokeile.

Roberto · « **Vastaus #2 :** 21.08.19 - klo:16.50 »

Kokeilin gimagereader ohjelmaa ja sillä toimi skannaus ja myös kuvan avaus suoraan levyltä.
Jälki on ihan siedettävää.
tesseract-ocr-fin paketti on asennettu.
Canon CanonScan Lide20, Ubuntu 18.04.3, kernel 5.0.0-25

Pontus12 · « **Vastaus #3 :** 21.08.19 - klo:18.24 »

Ohjelma skannasi hyvin, mutta kun sen piti tunnistaa teksti, niin se tiputti 4/5 osaa tekstiä pois. Kuvan se skannasi moitteettomasti. Kokeilin sekä pdf ja txt tiedostoina. Ei vaikutusta. Kieliasetus oli fi ja muuten annoin mennä oletusasetuksilla. Kokeilin myös vaihtaa 1200 dpi 600dpi. mutta ei sekään muuttanut tilannetta.

Roberto · « **Vastaus #4 :** 21.08.19 - klo:19.08 »

Kopioin ylläolevan tekstin ja lisäsin pari rivinvaihtoa.
Kaappasin siitä kuvan näytöltä ja tallensi koneelle png kuvaksi.
gimagereader luki kuvan ja irroitti siitä tekstin.
Tässä tulos:
Ohjelma skannasi hyvin, mutta kun sen piti tunnistaa teksti,

niin se tiputti 4/5 osaa tekstiä pois. Kuvan se skannasi moitteettomasti.

Kokeilin sekä pdf ja txt tiedostoina. Ei vaikutusta. Kieliasetus oli fi ja muuten annoin mennä oletusasetuksilla.
Kokeilin myös vaihtaa 1200 dpi 600dpi. mutta ei sekään muuttanut tilannetta.

nm · « **Vastaus #5 :** 21.08.19 - klo:20.27 »

Lainaus käyttäjältä: Pontus12 - 21.08.19 - klo:18.24

Ohjelma skannasi hyvin, mutta kun sen piti tunnistaa teksti, niin se tiputti 4/5 osaa tekstiä pois. Kuvan se skannasi moitteettomasti. Kokeilin sekä pdf ja txt tiedostoina. Ei vaikutusta. Kieliasetus oli fi ja muuten annoin mennä oletusasetuksilla. Kokeilin myös vaihtaa 1200 dpi 600dpi. mutta ei sekään muuttanut tilannetta.

400 tai 600 dpi:tä riittää kyllä yleensä hyvin. Pystytkö jakamaan esimerkkikuvan, joka ei tunnistu kunnolla?

Pontus12 · « **Vastaus #6 :** 24.08.19 - klo:14.58 »

Perusongelma on ilmeisesti minun Xsane ohjelmassa. sama viesti tulee, vaikka käynnistän Xsanen erikseen ilman Yagfia. Error-viesti: ei voinut käynnistää ICM profiilia. Tallensin spectaclella kuvan, mutta en löytänyt sitä. Se tallensi ilmeisesti sane tai xsane hakemistoon, mutta en löytänyt niitäkään. Simplescan toimii koneessani.

Roberto · « **Vastaus #7 :** 24.08.19 - klo:15.22 »

Mikä ohjelma käynnistyy kun painat PrintScreen nappia näppäimistöltä?

Pontus12 · « **Vastaus #8 :** 24.08.19 - klo:15.45 »

Kun painan Print screeniä näppäimistöllä, käynnistyy spectacle kaapausohjelma.

Roberto · « **Vastaus #9 :** 24.08.19 - klo:16.07 »

Eikö siitä näe kuvan tallennus polkua?
Minulla on ubuntu mate jossa se ei ole käytössä eli en näe itse nyt.
Muokkaus:
Kun käynnistän valikosta kuvankaappauksen niin käynnistyy mate-screenshot.
Sillä voi samalla rajata kaapattavan alueen niin ei tarvitse koko näyttöä kaapata.
Muokkaus 2:
xsane ongelmaan voisi auttaa tämä:
Avaa xsane ja tarkista että Asetukset valikossa ei ole ruksia kohdassa Enable color management
Jos on niin ota pois ja kokeile uudelleen skannata.

Pontus12 · « **Vastaus #10 :** 24.08.19 - klo:17.34 »

Skannaus ei ole ongelma, vaan tekstintunnistus. Skannata voi monella ohjelmalla linuxissa joko txt tai pdf muotoon tai jos haluaa voi skannata png kuvaksi. Minulle riittäisi se, että linuxista löytyisi ohjelma, jolla kuvapdf:n voi lukea tekstiksi. Minulla on Windowsissa ollut monta vuotta Abbyy Finereader ensin 9 ja sitten 10. Olen käyttänyt sitä Oraclen virtualboxissa ja siihen asennetussa Windows XP:ssä. Tähän asti olen saanut sen aina toimimaan, sillä olen tallentanut kyseisen vdi kovalevyn ja koko Virtualboxin usb-levylle. Nyt ei onnistunut. XP ei lähtenyt enää käyntiin. Ehkä tiedosto on vioittunut,

Kun yritin asentaa Abbyyn Windowsiin, ohjelma kertoi, että se on minulla käytössä toisessa koneessa. Ei ole, sillä toinen kone on kokonaan linuxkone. Ehkä Abbyyn käyttäminen onnistuu, kun saan vastauksen heiltä. Mieluiten kjitenkin käyttäisin linux-ohjelmaa, jos riittävän hyvä löytyisi. Tiedän kuten Super Oscar jo vastasikin Abbyyn löytyvän myös Linuxille, mutta haluan käyttää graafista sovellusta.

Tomin · « **Vastaus #11 :** 24.08.19 - klo:19.05 »

Vilkaisepas huviksesi mikä virtualisointi (paravirtualization interface) on VirtualBoxissa käytössä. Jos se on automaattinen, niin kokeile Legacy-asetusta. Se löytyy virtuaalikoneen asetuksista yleisasetuksien kihdytysvälilehdeltä (Acceleration).

https://www.virtualbox.org/manual/ch03.html#settings-acceleration

Asmo Koskinen · « **Vastaus #12 :** 24.08.19 - klo:21.09 »

En oikein voi moittia gImageReaderia/Tesseractia. Olen lukenut tekstejä (en ja fi) Pootleen käännösprojekteja varten. Minusta fi toimii aivan loistavasti. Kuvakaappaus ohessa. Skannaan png-muotoon.

Koodia: [Valitse]

asmok@Ubuntu-Laptop:~$ dpkg -l | grep ocr
ii  gimagereader 3.3.0-1 amd64 Graphical GTK+ front-end to tesseract-ocr
ii  tesseract-ocr 4.0.0-2 amd64 Tesseract command line OCR tool
ii  tesseract-ocr-eng 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for English
ii  tesseract-ocr-fin 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for Finnish
ii  tesseract-ocr-osd 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for script and orientation

Ystävällisin terveisin Asmo Koskinen.

Asmo Koskinen · « **Vastaus #13 :** 25.08.19 - klo:12.08 »

Lainaus käyttäjältä: Asmo Koskinen - 24.08.19 - klo:21.09

Koodia: [Valitse]
asmok@Ubuntu-Laptop:~$ dpkg -l | grep ocr ii gimagereader 3.3.0-1 amd64 Graphical GTK+ front-end to tesseract-ocr ii tesseract-ocr 4.0.0-2 amd64 Tesseract command line OCR tool ii tesseract-ocr-eng 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for English ii tesseract-ocr-fin 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for Finnish ii tesseract-ocr-osd 1:4.00~git30-7274cfa-1 all tesseract-ocr language files for script and orientation

https://github.com/tesseract-ocr/tesseract/wiki

https://launchpad.net/~alex-p/+archive/ubuntu/tesseract-ocr

Koodia: [Valitse]

ii tesseract-ocr 4.1.0-1ppa1~disco1 amd64 Tesseract command line OCR tool
Ystävällisin terveisin Asmo Koskinen.

Pontus12 · « **Vastaus #14 :** 25.08.19 - klo:14.30 »

Legacy asetus ei auttanut ja näyttö oli minulla vboxVga. Joten virtualbox ei ilmeisesti toimi vanhan 95:kanssa tai tiedostossani on jotain vioittunut. Tarvitsin 95:ttä vain skannaukseen. Kokeilen vielä tänään gimp skannausta Asmon ystävällisten neuvojen avulla.

Pontus12 · « **Vastaus #15 :** 25.08.19 - klo:15.18 »

Jostain syystä tesseract ei käynnistynyt komentoriviltä, kun kopioin Asmon esimerkkejä. Kävin kaikki läpi vielä synapticin avulla ja asensin sieltä kyseiset paketit. Edelleen yagf valitti skannauksesta:
"Error during CMS conversion: Could not open scanner ICM profile:"

Sen jälkeen kokeilin gimagereaderia, joka skannasi kuvan moitteettomasti. Suomenkielisiä sanoja kyllä ilmestyi oikeanpuoleiseen kolumniin, mutta alekkain eikä dokumentistä saanut selvää.

Asetukset Gimagereaderilla oli silloin "hOCR PDF". Tein ilmeisesti jonkun virheen, sillä kun laitoin oletukseksi txt, se skannasi tekstin yhtä hyvin kuin Abbyy 10. Ny mietin, mikä olisi paras tapa muuttaa tiedosto pdf tiedostoksi. Ilmeisesti ainakin Libre Office tekee sen. Mutta pitäisi vielä kokeilla pystyykö gimagereader skannaamaa useampia sivuja yhdeksi tiedostoksi vaikka vain tekstitiedostoksi, sillä pdf olisi tietenkin parempi. Se ei minulle onnistunut ainakaan heti. Kun muunsin yhden sivun pdf-tiedostoksi, jouduin korjaamaarivin välejä. Ohjelma ei ihan vielä toimi yhtä hyvin kuin Abbyy, joka voi skannata ja tunnistaa monisivuisen dokumentin pdf, odt tai docx tiedostoiksi.
Voihan olla, että siinä on jo kaipaamani piirteet, ja etten minä ole vain osannut käyttää ohjelmaa vieläkään oikein. Mutta jos ei ole, se olisi hieno haaste ohjelmoijille tehdä siitä monisivuisen ja kyvyn muuntaa pdf-tiedostoksi. Yritin nimittäin skannata pelkäksi tekstitiedostoksi useampia sivuja. Jos käytin skanneria, oli jokainen sivu luettava ja tallennettava erillisenä tekstitiedostona. Yritin myös avata useampisivuisen kuva-pdf-tiedoston ja muuntaa sen tekstiksi. Ei onnistunut, ei pdf:nä eikä edes pitkänä txt-tiedostona. Tällaisena minulla on valitettavasti hyvin vähän käyttöä Gimagereaderille, koska useimmiten joudun skannaamaan monisivuisen asiakirjan. Skannatun tekstin laatu sen sijaan oli mielestäni yllättävän hyvää.

Jos monisivuiseen tekstin tunnistamiseen ei löydy Ubuntussa vielä ohjelmaa, niin Windows on minulle sen suhteen ilmeisesti ainoa vaihtoehto. Elän kuitenkin toivossa, että sellainen vielä löytyisi. Jos ei heti, jonkun ajan perästä!

Roberto · « **Vastaus #16 :** 25.08.19 - klo:18.48 »

Kyllä xsane ohjelman ylävalikosta voi valita Multipage kohdan.
Valmis pdf tiedosto tallentuu kotihakemistoon.
Kokeilin ja toimii.
gimageReader ohjelma osaa avata monisivuisen pdf tiedoston.
Testasin 8 sivuisella pdf tiedostolla ja tunnistus toimi virheettömästi.

Pontus12 · « **Vastaus #17 :** 25.08.19 - klo:19.26 »

Olet aivan oikeassa. Kokeilin itsekin uudelleen eri asetuksilla monta kertaan ja lopulta onnistuin. Kiitos kaikille.

Ubuntu Suomen keskustelualueet

Uutiset:

Kirjoittaja Aihe: Tekstin tunnistusohjelmat Ubuntuun (RATKAISTU) (Luettu 8102 kertaa)

Pontus12

Tekstin tunnistusohjelmat Ubuntuun (RATKAISTU)

SuperOscar

Vs: Tekstin tunnistusohjelmat Ubuntuun

Roberto

Vs: Tekstin tunnistusohjelmat Ubuntuun

Pontus12

Vs: Tekstin tunnistusohjelmat Ubuntuun

Roberto

Vs: Tekstin tunnistusohjelmat Ubuntuun

nm

Vs: Tekstin tunnistusohjelmat Ubuntuun

Pontus12

Vs: Tekstin tunnistusohjelmat Ubuntuun

Roberto

Vs: Tekstin tunnistusohjelmat Ubuntuun

Pontus12

Vs: Tekstin tunnistusohjelmat Ubuntuun

Roberto

Vs: Tekstin tunnistusohjelmat Ubuntuun

Pontus12

Vs: Tekstin tunnistusohjelmat Ubuntuun

Tomin

Vs: Tekstin tunnistusohjelmat Ubuntuun

Asmo Koskinen

Vs: Tekstin tunnistusohjelmat Ubuntuun

Asmo Koskinen

Vs: Tekstin tunnistusohjelmat Ubuntuun

Pontus12

Vs: Tekstin tunnistusohjelmat Ubuntuun

Pontus12

Vs: Tekstin tunnistusohjelmat Ubuntuun

Roberto

Vs: Tekstin tunnistusohjelmat Ubuntuun

Pontus12

Vs: Tekstin tunnistusohjelmat Ubuntuun