Ubuntu Suomen keskustelualueet

Ubuntun käyttö => Ubuntu tietokoneissa => Aiheen aloitti: Sudo Vilén - 09.01.08 - klo:15.56

Otsikko: Skannaus tekstitiedostoksi/tekstin lukeminen kuvatiedostosta
Kirjoitti: Sudo Vilén - 09.01.08 - klo:15.56
Niin, löytyykö linuxille ohjelmaa, jolla saisin tekstiä sisältävän kuvatiedoston muutettua tekstitiedostoksi, hätäpäissäni en ainakaan löytänyt?
Otsikko: Vs: Skannaus tekstitiedostoksi/tekstin lukeminen kuvatiedostosta
Kirjoitti: Jallu59 - 09.01.08 - klo:16.25
Minun mielstäni jo Xsane antaa skannauksen jälkeisessä näyttötilassaan k.o vaihtoehdon tallennuksen lisäksi.
Siinä taidetaan puhua OCR:stä, mikä tarkoittaa muistaakseni "Optical Character Reading".
(en voi nyt tarkistaa)

T:Jallu59
Otsikko: Vs: Skannaus tekstitiedostoksi/tekstin lukeminen kuvatiedostosta
Kirjoitti: UbunTux - 09.01.08 - klo:16.58
gocr

Olen käyttänyt sitä epäsuorasti videoiden tekstitystille.
Otsikko: Vs: Skannaus tekstitiedostoksi/tekstin lukeminen kuvatiedostosta
Kirjoitti: janne - 09.01.08 - klo:18.52
gocr

luin juuri myös aika mairittelevan arvostelun ohjelmasta nimeltä tesseract-ocr. tosin ymmärsin, että kehityksessä on ollut jonkin verran taukoa, enkä osaa sanoa sen soveltumisesta esim. suomen oikolukuun.
Otsikko: Vs: Skannaus tekstitiedostoksi/tekstin lukeminen kuvatiedostosta
Kirjoitti: ilkkak - 09.01.08 - klo:18.57
Minun mielstäni jo Xsane antaa skannauksen jälkeisessä näyttötilassaan k.o vaihtoehdon tallennuksen lisäksi.
Siinä taidetaan puhua OCR:stä, mikä tarkoittaa muistaakseni "Optical Character Reading".
(en voi nyt tarkistaa)

T:Jallu59

Joo - sitä se meinaa. Onko jollakulla ollut kokemusta ocr:n käytöstä. Omani on, että kestää tautisen kauan ja tulos on hyvin vaatimaton.
Otsikko: Vs: Skannaus tekstitiedostoksi/tekstin lukeminen kuvatiedostosta
Kirjoitti: Ville Pöntinen - 09.01.08 - klo:20.24
Omien kokemusten mukaan tekstiä pitää olla vähintään kolme sivua, että ocr:n käytöllä (voi) voittaa aikaa. Pari sivua kirjoittaa nopeammin käsin.

Lisäksi tekstin pitää olla kohtuu laadukasta (siis ei esim. kopionkopionkopio tai faxi) eikä tietenkään millään eksoottisella fontilla. Myös palstat, taulukot jne tekevät viimeistelyyn niin paljon lisätyötä, ettei ajallisesti kannata.
Otsikko: Vs: Skannaus tekstitiedostoksi/tekstin lukeminen kuvatiedostosta
Kirjoitti: UbunTux - 09.01.08 - klo:20.56
Tuolla olisi jotain asiaa
http://www.linux.com/articles/50658

Minusta muotoilu on täysin sivuseikka, kunhan rivinvaihdot toimivat ja teksti virtaa ulos lähes oikein. Kuitenkin joutuu muotoilemaan uudelleen  melkein kaiken aika radikaalisti.
Otsikko: Vs: Skannaus tekstitiedostoksi/tekstin lukeminen kuvatiedostosta
Kirjoitti: ilkkak - 13.01.08 - klo:10.45
Niin, löytyykö linuxille ohjelmaa, jolla saisin tekstiä sisältävän kuvatiedoston muutettua tekstitiedostoksi, hätäpäissäni en ainakaan löytänyt?

Latasin SimpleOcr:n http://www.download.com/SimpleOCR/3000-2070_4-10152129.html (http://www.download.com/SimpleOCR/3000-2070_4-10152129.html). Se asentui (Kubuntu gutsy) winen kanssa ilman ongelmia (on se vaan windows ohjelmien asennus hassun näköistä sekavaa  puuhastelua) ja toimii.

komentoriviltä wine .wine/drive_c/Ohjelmatiedostot/SimpleOCR/Bin/SimpleOCR.exe


Tuloksen jälki oli rehellisesti vaatimaton. Ohjelmaan saa ilmeisesti vain vieraskielisen sanastotuen (kiitos suljetun koodin) eikä sitä ole käännetty suomeksi (kiitos suljetun koodi). Se ei myöskään tunne kuin muutaman kuvaformaatin ja niihinkin tiedostotarkenteen windows tyyliin (kiitos suljetun koodin)